为了账号安全,请及时绑定邮箱和手机立即绑定

Java网络爬虫有哪些比较好的技术,技术方法或者技术框架

Java网络爬虫有哪些比较好的技术,技术方法或者技术框架

达令说 2019-02-22 06:26:32
在网络爬虫中使用Java语言,比较好操作的。这样的框架各位有用过的,或者是看别人用过相对比较好的技术方案,希望各位分享给我
查看完整描述

5 回答

?
慕少森

TA贡献2019条经验 获得超9个赞

自己做简单的网站爬虫。可以用这些:
请求:HttpClient
解析HTML:Jsoup
模拟浏览器:htmlunit

成熟的爬虫框架:
1.nutch
地址:apache/nutch · GitHub
apache下的开源爬虫程序,功能丰富,文档完整。有数据抓取解析以及存储的模块。

2.Heritrix
地址:internetarchive/heritrix3 · GitHub
很早就有了,经历过很多次更新,使用的人比较多,功能齐全,文档完整,网上的资料也多。有自己的web管理控制台,包含了一个HTTP 服务器。操作者可以通过选择Crawler命令来操作控制台。

3.crawler4j
地址:yasserg/crawler4j · GitHub
因为只拥有爬虫的核心功能,所以上手极为简单,几分钟就可以写一个多线程爬虫程序。

查看完整回答
反对 回复 2019-03-01
?
呼如林

TA贡献1798条经验 获得超3个赞

简单的逆向的话可以用直接用Apache的HttpClient模拟请求,需要登录的要自己维护cookie和session,然后调用api用jackson框架将返回的json数据映射到对象。如果是解析html页面的话,可以用webmagic框架,功能丰富,但是没有登录模块。

查看完整回答
反对 回复 2019-03-01
?
肥皂起泡泡

TA贡献1829条经验 获得超6个赞

webmagic

查看完整回答
反对 回复 2019-03-01
?
婷婷同学_

TA贡献1844条经验 获得超8个赞

简单的用curl都行,复杂的当然是phantomjs了,脚本化的浏览器环境,可以直接和网页里的js交互

查看完整回答
反对 回复 2019-03-01
?
叮当猫咪

TA贡献1776条经验 获得超12个赞

WebCollector传送门

个人觉得这个是一个不错的Java框架,简单好用

查看完整回答
反对 回复 2019-03-01
  • 5 回答
  • 0 关注
  • 657 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信