https://github.com/Hiccup1/baike_spider 这是我的代码,可以成功爬取的,我也遇到第二条就failed,还有其他乱七八糟的错误,找了半天其实都是不细心写错了,写错字母什么的,少下划线,这代码是可以的,如果能点个star,点个星就更好了
2017-07-26
我觉得应该在add_new_urls方法下for循环中添加一个if判断,判断下获取的url是否在old_urls中。
for url in urls:
if url not in self.old_urls:
self.new_urls.add(url);
for url in urls:
if url not in self.old_urls:
self.new_urls.add(url);
2017-07-26
最新回答 / 成蔚
我的问题与你一模一样 ,CSDN上一个博主写了解决方法解决方法:在python/lib/site.py中加入 import sysreload(sys)sys.setdefaultencoding('gbk')我试过了,成功!
2017-07-22
最赞回答 / 孩子气丶
在HTML中需要告诉浏览器使用何种编码fout.write('<html><head><meta charset="UTF-8"></head>') data['title']是str类型,需要先将str转化为utf-8,再将utf-8转化为Unicodefout.write("<td>%s</td>" % data['title'].encode('utf-8').decode('utf-8')) fout.write("<...
2017-07-20
最新回答 / NJUPT野球王
http://blog.csdn.net/lanchunhui/article/details/50955238 是不是你23行add(url),传过来url的类型不对
2017-07-20
最新回答 / 慕前端3516650
settings.py 文件中TEMPLATES中
'DIRS': [os.path.join(BASE_DIR, 'templates')],是不是多了中括号?
2017-07-20