课程
/后端开发
/Python
/Python开发简单爬虫
有没有人跟我一样运行不到最后就卡住的??这是什么鬼。。。每次爬个几百个就停住了。。
2016-10-24
源自:Python开发简单爬虫 8-1
正在回答
def _get_new_urls(self, curr_url, soup): new_urls = set() links = soup.find_all('a', href=re.compile(r"/item/*"))
正则表达式的内容改下就行,网页格式变了
我就爬了两个~~~
我第一次爬了1000条,但是再次运行的时候爬了两条就结束了
可以试试修改一下collect 函数,让它每次收集数据的时候都写入文件,而不是像老师一样最后一次性写入。
gavin_10
来个多线程
嗯嗯,,有可能啊,感觉程序应该没什么问题,而且每次卡死的时候爬取的数目也不同,最多一次也能爬取900多个
我感觉是内存的原因吧,数据都在内存保存,最后写入文件的
举报
本教程带您解开python爬虫这门神奇技术的面纱