Python2.7
两个地方要改
1、正则表达式这里改成soup.find_all('a',href = re.compile(r"/item/"))
2、html_outputer向文件写东西时改成fout.write(("<td>%s</td>" % data['summary']).encode('utf-8'))这种格式
我的代码有一些改动,想看的朋友去下面
git代码:https://github.com/DongChengrong/imooc/tree/master/src/baike_spider
两个地方要改
1、正则表达式这里改成soup.find_all('a',href = re.compile(r"/item/"))
2、html_outputer向文件写东西时改成fout.write(("<td>%s</td>" % data['summary']).encode('utf-8'))这种格式
我的代码有一些改动,想看的朋友去下面
git代码:https://github.com/DongChengrong/imooc/tree/master/src/baike_spider
2017-09-09
如果不能CTRL +1 快速创建类或者函数的话,看看自己使用的是什么编译器,百度快捷键。
例如我用的是pycharm,快捷键是alt + 回车。
或者自己去settings里面的keymap找一找自己的快捷键是什么。
例如我用的是pycharm,快捷键是alt + 回车。
或者自己去settings里面的keymap找一找自己的快捷键是什么。
2017-09-09
已采纳回答 / wateryang
class SpiderMain(object): def __init__(self):看下你的代码这个地方是不是用的 def __int__(self)
2017-09-07
最新回答 / Mr_nothing
在spider_main 函数中from urllib import request然后 把原来的 print 改成 print('count %d : %s'%(count , request.unquote(new_url)))
2017-09-05