为了账号安全,请及时绑定邮箱和手机立即绑定

python爬虫

我想请问一下为什么使用这个程序有的网页不会记录在内?像这个程序里的选择条件是/item/*那应该是整个百度百科的python页面的所有满足这个条件的都会记录吧?

正在回答

2 回答

因为爬的数目少(才1000条....),理论上全部百科的网页都可以获取到,但是全部百科网页的数目是你无法想象的。我爬到了各种各样的百科信息,包括计算机、学校、人命......,你可以把爬的数量count设置为1亿试试......

0 回复 有任何疑惑可以回复我~
#1

xixiyingyi

人的名称
2017-10-12 回复 有任何疑惑可以回复我~
#2

xixiyingyi 回复 kissingfire 提问者

爬到的页面后,通过解析,会得到这个页面的 urls 和 其它希望得到的数据,然后将获取到的 urls 加入到url管理器的集合里面(课程里面使用的是set()集合,所以我们取出来的时候也是随机的),以备之后的循环爬取。数据部分就放在数据收集器里面。如此循环下去
2017-10-16 回复 有任何疑惑可以回复我~
#3

kissingfire 提问者 回复 xixiyingyi

哦哦,懂了,谢谢~
2017-10-25 回复 有任何疑惑可以回复我~
查看1条回复

那可不可以理解成当爬虫到一个页面时,先搜集这个页面上所有符合的url于一个集合里,然后下一个打开的是集合中任意可能的一个url?

0 回复 有任何疑惑可以回复我~

举报

0/150
提交
取消
Python开发简单爬虫
  • 参与学习       227670    人
  • 解答问题       1219    个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

python爬虫

我要回答 关注问题
意见反馈 帮助中心 APP下载
官方微信