为了账号安全,请及时绑定邮箱和手机立即绑定

如何下手学习java的爬虫?

如何下手学习java的爬虫?

交互式爱情 2018-07-15 11:09:59
最近想自己学习下爬虫技术。可是又不知道如何下手。java爬虫技术该如何下手?有哪些框架?或是哪些书或者是资料什么的?希望大家能给出点建议。谢谢!
查看完整描述

2 回答

?
呼唤远方

TA贡献1856条经验 获得超11个赞

httpClient + Jsoup +多线程足以

第一步 通过用httpClient根据url将网页下载下来

第二步 用jsoup提取网页中你需要的信息 

第三步如果url是有规律的 直接多线程或循环去获取下个url的功能,如果是从第一个url中页面分析提取的url 则将提取的url放到队列中


查看完整回答
1 反对 回复 2018-07-15
?
慕慕森

TA贡献1856条经验 获得超17个赞

首先,你要会看网页源码,知道基本的get和post请求,也就是说了解一些http协议的东西;其次,你要会一点css选择器语法;之后呢,看一下Jsoup的语法,很简单的;当然了,接下来就是借助楼上几位所说的HttpClient工具进行模拟浏览器请求了,然后用Jsoup进行解析,然后入库,就是这样

查看完整回答
反对 回复 2018-07-15
?
回首忆惘然

TA贡献1847条经验 获得超11个赞


查看完整回答
反对 回复 2018-07-15
  • 2 回答
  • 0 关注
  • 776 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信