python版本:python2.7.14编写
源码:https://github.com/wenglingjie/immoc/tree/master/baike_spider
源码:https://github.com/wenglingjie/immoc/tree/master/baike_spider
2018-03-23
output.html被我删除后重新运行程序,控制台能正常输出网址,但不会生成output.html文件了,按F5刷新一点反应都没有,求解啊。
2018-03-22
随机抛出异常跑不到1000条的,可以改下craw结构,把try和except放到循环里:
while self.urls.has_new_url():
try:
XXXX
......
except:
print('craw failed')
self.outputer.output_html()
while self.urls.has_new_url():
try:
XXXX
......
except:
print('craw failed')
self.outputer.output_html()
2018-03-18
我昨天在某网站上手动找小电影觉得太累了,所以今天才过来学学爬虫。每个人都可以发表自己的观点,有什么好吵的,带语言攻击的就更不应该了。
2018-03-17