发现只抓取了一条就出错的或者运行不了的同学请把spider_main里面的异常捕捉先不要写,这样运行的时候就能知道错在哪里了。
2017-04-12
craw 1: http://baike.baidu.com/item/Python
craw 2: http://baike.baidu.com/item/史记·2016?fr=navbar
craw failed
craw 2: http://baike.baidu.com/item/史记·2016?fr=navbar
craw failed
2017-04-11
我终于运行成功了,出错在html_downloader.py,里面有个if url is None: 我写成了 if url in None: 然后运行后只出一条结果,然后报错argument of type 'NoneType' is not iterable。craw failed。可以参考我的博客,http://blog.csdn.net/stopcpp/article/details/69946607
2017-04-10
AttributeError: 'spiderMain' object has no attribute 'urls' 这个错误是def __init__(self)处要双下划线
2017-04-10
AttributeError: 'spiderMain' object has no attribute 'urls' 这个错误是 def __init__(self)处必须是双下划线!找了我一上午才找到。。
2017-04-10
我爬出来的结果是这样的。。。
craw 1 : http://baike.baidu.com/item/Python
craw failed
看来需要自己修改python的正则表达式
craw 1 : http://baike.baidu.com/item/Python
craw failed
看来需要自己修改python的正则表达式
2017-04-09
另外不用写class_ = 'title',直接写'title'也能正常打印结果,亲测可行,但是写name_ = 'p'就无法正常打印,必须写'p'
2017-04-09
亲测必须要在from bs4 import Beautifulsoup后面加上import re,不然会报错,多谢楼上大神指点
2017-04-09