python除了用scrapy框架做网络爬虫还有什么其他的框架
3 回答

蝴蝶刀刀
TA贡献1801条经验 获得超8个赞
(1)Crawley: 高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等(2)Portia:可视化爬取网页内容(3)newspaper:提取新闻、文章以及内容分析(4)python-goose:java写的文章提取工具(5)Beautiful Soup:名气大,整合了一些常用爬虫需求。缺点:不能加载JS。(6)mechanize:优点:可以加载JS。缺点:文档严重缺失。不过通过官方的example以及人肉尝试的方法,还是勉强能用的。(7)selenium:这是一个调用浏览器的driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。(8)cola:一个分布式爬虫框架。项目整体设计有点糟,模块间耦合度较高。
以下是我的一些实践经验:
对于简单的需求,比如有固定pattern的信息,怎么搞都是可以的。
对于较为复杂的需求,比如爬取动态页面、涉及状态转换、涉及反爬虫机制、涉及高并发,这种情况下是很难找到一个契合需求的库的,很多东西只能自己写。
添加回答
举报
0/150
提交
取消