爬了1000个,没问题,我学习模仿的代码 https://git.oschina.net/xiedongji/spider_demo.git
关于只输出了一条记录,第二条就抓取失败接下来就没有输出的问题,我个人的解决方案是这样,我去掉了老师在代码加上的try和except,然后输出结果就会打印出相应的错误,我发现错误是在parser方法,它返回了两个None值,接着我就去查看为什么会返回None值,结果发现parser的参数html_cont的值是None,parser方法一开始有个判断语句,通过调试会发现代码执行判断语句后就会返回,可由此判断。而html_cont是从download方法来获取的,那么问题就出在download方法,接着发现response.getcode()漏了括号。可以上网百度调试的方法,找bug效率会高很多。
2017-08-04
import urllib.request
response = urllib.request.urlopen('http://www.baidu.com')
print(response.getcode())
response = urllib.request.urlopen('http://www.baidu.com')
print(response.getcode())
2017-08-02
urllib简介
首先需要说明的是,本系列教程,全部采用Python3.5作为开发环境,因为我不想做一些影响Python3发展的事情,如非必要,请使用Python3。
urllib是Python提供的一个用来访问网络的库,在Python3中有了较大的改动,首先最明显的就是整合了urllib2和urllib,使用起来更加的明了简单。
作者: 秋名山车神
链接:http://www.imooc.com/article/16026
来源:慕课网
本文原创发布于慕课网 ,转载请注明出处,谢谢合作!
首先需要说明的是,本系列教程,全部采用Python3.5作为开发环境,因为我不想做一些影响Python3发展的事情,如非必要,请使用Python3。
urllib是Python提供的一个用来访问网络的库,在Python3中有了较大的改动,首先最明显的就是整合了urllib2和urllib,使用起来更加的明了简单。
作者: 秋名山车神
链接:http://www.imooc.com/article/16026
来源:慕课网
本文原创发布于慕课网 ,转载请注明出处,谢谢合作!
2017-08-02