课程
                    
                        /后端开发
                        
                            /Python
                        
                        /Python开发简单爬虫

python爬虫

我想请问一下为什么使用这个程序有的网页不会记录在内?像这个程序里的选择条件是/item/*那应该是整个百度百科的python页面的所有满足这个条件的都会记录吧？

kissingfire

2017-10-09

源自：Python开发简单爬虫 7-1

关注问题我要回答

1502

操作

收起

2 回答

xixiyingyi 回答被采纳 +2 积分
2017-10-12

因为爬的数目少（才1000条....），理论上全部百科的网页都可以获取到，但是全部百科网页的数目是你无法想象的。我爬到了各种各样的百科信息，包括计算机、学校、人命......，你可以把爬的数量count设置为1亿试试......

0 回复有任何疑惑可以回复我~

收起回答

xixiyingyi

人的名称

2017-10-12 回复有任何疑惑可以回复我~

kissingfire 提问者回复 xixiyingyi

谢谢~那可不可以理解成当爬虫到一个页面时，先搜集这个页面上所有符合的url于一个集合里，然后下一个打开的是集合中任意可能的一个url？

2017-10-13 回复有任何疑惑可以回复我~

xixiyingyi 回复 kissingfire 提问者

爬到的页面后，通过解析，会得到这个页面的 urls 和其它希望得到的数据，然后将获取到的 urls 加入到url管理器的集合里面（课程里面使用的是set（）集合，所以我们取出来的时候也是随机的），以备之后的循环爬取。数据部分就放在数据收集器里面。如此循环下去

2017-10-16 回复有任何疑惑可以回复我~

查看1条回复

kissingfire 提问者
2017-10-13

那可不可以理解成当爬虫到一个页面时，先搜集这个页面上所有符合的url于一个集合里，然后下一个打开的是集合中任意可能的一个url？

0 回复有任何疑惑可以回复我~

收起回答

0/150

提交

取消

Python开发简单爬虫

参与学习 227558 人
解答问题 1288 个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

python爬虫

我要回答关注问题

热搜

最近搜索清空

python爬虫

2 回答

python爬虫