已采纳回答 / 蚂蚁帅帅
赞思考,改成多线程,要多一些处理:1、设定线程数目为N2、改用multiprocessing.Process方法启动crawl方法N次,每个线程记录序号为N;3、修改UrlManger,获取url的时候,需要提供序号参数,只返回hash(url)%N==0的url,或者干脆维护N个队列,每个线程单独使用自己的URL队列即可;难点在于处理UrlManager和Outputer的多线程冲突,如果数据是存到MySQL,要么使用上面说的线程隔离的方法,要么使用DB加锁的方式处理冲突;
2015-12-29
晕, 没看到评论, 害的我百度好久。。
python3
显示 没有那个属性,导全包的路径即可。找不到方法的,用urllib.request 这样即可。
python3
显示 没有那个属性,导全包的路径即可。找不到方法的,用urllib.request 这样即可。
2015-12-28