关于只输出了一条记录,第二条就抓取失败接下来就没有输出的问题,我个人的解决方案是这样,我去掉了老师在代码加上的try和except,然后输出结果就会打印出相应的错误,我发现错误是在parser方法,它返回了两个None值,接着我就去查看为什么会返回None值,结果发现parser的参数html_cont的值是None,parser方法一开始有个判断语句,通过调试会发现代码执行判断语句后就会返回,可由此判断。而html_cont是从download方法来获取的,那么问题就出在download方法,接着发现response.getcode()漏了括号。可以上网百度调试的方法,找bug效率会高很多。
2017-08-04
最赞回答 / Oldbig_Lin
https://github.com/oldbig-carry/python_baidu_spider 亲测成功 2017/8/13 欢迎fork
2017-08-04
最赞回答 / qq_Sunshine_60
links = soup.find_all('a',herf = re.compile(r"/view/\d+\.htm"))上面那句有问题,现在去看百科上的链接,已经不是/view/这种格式了。
2017-08-03