为了账号安全,请及时绑定邮箱和手机立即绑定

求教:怎样解决Jsoup翻页问题?

求教:怎样解决Jsoup翻页问题?

炎炎设计 2019-02-17 04:58:38
请教一个问题哈: Jsoup官方文档里,重点讲了怎么解析网页,但没很好的讲解怎么download这个问题。载入一个网页,就这么干巴巴一句: Document doc = Jsoup.connect("http://example.com/").get(); 更别没有提到翻页、判断是否重复爬去等问题。 这个是不是说,用其他的爬虫,比如crawler4j或者HttpClient,先爬取网页,然后再使用Jsoup来解析? 还是说Jsoup能强大到先爬取再解析? 还有,对于这个问题,能否推荐几个英文关键词,我去google上搜一下?水平不高,连关键词是什么都不知道,请见谅。
查看完整描述

2 回答

?
翻翻过去那场雪

TA贡献2065条经验 获得超14个赞

JSoup帮你发送http请求,获取返回的HTML内容,保存到Document对象中,再提供一套类jQuery的API查询解析HTML文档内的信息

翻页每个站点有特定的URL请求,或JSON、JSONP请求,这个需要你自己组织处理

你可以使用HttpClient等爬虫类库,获取HTML原始内容,构建成JSOUP的Document对象,让JSOUP解析出内容,然后保存到你期望的持久化方案中(本地文件,数据库,内存...)

是否爬虫了,是否需要通过代理去爬(如何反爬)不是JSOUP应该干的活,就像HttpClient负责爬取内容,但不会解析内容一样....

查看完整回答
反对 回复 2019-03-01
?
青春有我

TA贡献1784条经验 获得超8个赞

爬虫一般会先爬一个种子页面,里面有所有页面url的规则,通过这个种子再去爬其他页面。

查看完整回答
反对 回复 2019-03-01
  • 2 回答
  • 0 关注
  • 682 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信