课程
/后端开发
/Python
/Python开发简单爬虫
为什么只输出两条,第一条为刚开始输入的,第二条为百度百科词条,然后就没有了
2017-03-18
源自:Python开发简单爬虫 7-7
正在回答
我遇到的问题是 第二条链接中开始含有中文 例如这样
http://baike.baidu.com/item/史记·2016?fr=navbar
就跑不动了
我的也是,只爬了两条,发现是在爬取第二个url时,调用
def add_new_url(self,url): if url is None: return if url not in self.new_urls and url not in self.old_urls: self.new_urls.add(url) 函数时,url并没有加入到new_urls中,导致new_urls为空,终止了爬取 但我并不知道为什么.....
1. 先检查是否将结果写入到了data字典中,再看看是否代码中正则匹配有误
举报
本教程带您解开python爬虫这门神奇技术的面纱