课程
/后端开发
/Python
/Python开发简单爬虫
我想请问一下为什么使用这个程序有的网页不会记录在内?像这个程序里的选择条件是/item/*那应该是整个百度百科的python页面的所有满足这个条件的都会记录吧?
2017-10-09
源自:Python开发简单爬虫 7-1
正在回答
因为爬的数目少(才1000条....),理论上全部百科的网页都可以获取到,但是全部百科网页的数目是你无法想象的。我爬到了各种各样的百科信息,包括计算机、学校、人命......,你可以把爬的数量count设置为1亿试试......
xixiyingyi
xixiyingyi 回复 kissingfire 提问者
kissingfire 提问者 回复 xixiyingyi
那可不可以理解成当爬虫到一个页面时,先搜集这个页面上所有符合的url于一个集合里,然后下一个打开的是集合中任意可能的一个url?
举报
本教程带您解开python爬虫这门神奇技术的面纱