为了账号安全,请及时绑定邮箱和手机立即绑定

求教,关于python除了用scrapy框架做网络爬虫还有什么其他的框架?

求教,关于python除了用scrapy框架做网络爬虫还有什么其他的框架?

幕布斯7119047 2019-11-25 10:06:11
python除了用scrapy框架做网络爬虫还有什么其他的框架
查看完整描述

3 回答

?
蝴蝶刀刀

TA贡献1801条经验 获得超8个赞

(1)Crawley: 高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等(2)Portia:可视化爬取网页内容(3)newspaper:提取新闻、文章以及内容分析(4)python-goose:java写的文章提取工具(5)Beautiful Soup:名气大,整合了一些常用爬虫需求。缺点:不能加载JS。(6)mechanize:优点:可以加载JS。缺点:文档严重缺失。不过通过官方的example以及人肉尝试的方法,还是勉强能用的。(7)selenium:这是一个调用浏览器的driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。(8)cola:一个分布式爬虫框架。项目整体设计有点糟,模块间耦合度较高。

以下是我的一些实践经验:

  • 对于简单的需求,比如有固定pattern的信息,怎么搞都是可以的。

  • 对于较为复杂的需求,比如爬取动态页面、涉及状态转换、涉及反爬虫机制、涉及高并发,这种情况下是很难找到一个契合需求的库的,很多东西只能自己写。


查看完整回答
反对 回复 2019-12-01
  • 3 回答
  • 0 关注
  • 672 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号