Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

怎样运用多线程来加速爬取

已采纳回答 / 蚂蚁帅帅

赞思考，改成多线程，要多一些处理：1、设定线程数目为N2、改用multiprocessing.Process方法启动crawl方法N次，每个线程记录序号为N；3、修改UrlManger，获取url的时候，需要提供序号参数，只返回hash(url)%N==0的url，或者干脆维护N个队列，每个线程单独使用自己的URL队列即可；难点在于处理UrlManager和Outputer的多线程冲突，如果数据是存到MySQL，要么使用上面说的线程隔离的方法，要么使用DB加锁的方式处理冲突；

2 回答 1145 浏览

2015-12-29

冯渣渣

觉得这种速度crawl有点慢，求问怎么运用多线程加快速度

2015-12-29

学无止境_0016

相当棒，点赞

0 8-1 课程总结

2015-12-29

有提供源代码下载么

最赞回答 / myAbo

http://www.imooc.com/opus/resource?opus_id=1932 希望帮到你

1 回答 537 浏览 7-2 调度程序

2015-12-28

Oyxiaoxi

效果已实现！中间出现过多个错误，都一一自己检查文档解决了，很欣慰

3 7-7 开始运行爬虫和爬取结果展示

2015-12-28

风中过客

晕，没看到评论，害的我百度好久。。
python3
显示没有那个属性，导全包的路径即可。找不到方法的，用urllib.request 这样即可。

1 5-3 Python爬虫urlib2实例代码演示

2015-12-28

是不是我装的有问题啊

+ 我来回答回答最高可+2积分

0 回答 584 浏览

2015-12-27

那年_这雨

新手表示要跑起来不容易啊

0 7-2 调度程序

2015-12-27

扎克悟空

老师讲得很好！

1 6-4 BeautifulSoup实例测试

2015-12-27

那年_这雨

路漫漫其修远兮…………

0 8-1 课程总结

2015-12-27

div标签入如何查找

最新回答 / blouc

在要查找的地方单机鼠标右键：审查元素（chrome浏览器），查看元素（Firefox浏览器）等；或者在网页源文件中搜索。

1 回答 813 浏览

2015-12-27

Tmn07

加个<meta charset='utf-8'>，我是可以了。。

0 8-1 课程总结

2015-12-27

宝慕林2612651

之前有过了解，但只是半知半解，这个课程好给力，理清了爬虫的基本框架，不过自己写的还没跑通，先谢谢啦

0 8-1 课程总结

2015-12-27

倾过名伶

中间有几集下载不了

0 1-1 Python开发简单爬虫课程介绍

2015-12-27

扎克悟空

sofa~

0 4-2 Python爬虫URL管理器的实现方式

2015-12-27

学人易

讲的非常好入了门

0 8-1 课程总结

2015-12-27

首页上一页 191 192 193 194 195 196 197 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空