作业要我们用Java写一个爬虫,我看网上和助教给出的资料,似乎是用httpclient和jsoup两个类,但是在jsoup那里的选择器,我看不懂,网上找了相应的资料,要么是直接照搬文档里面的,要么是一笔带过,完全懵逼在当场……具体问题就比如是……可以get到一大串的json数据,不知道怎么把里面的"aid":***之类的数据提取出来,这应该用怎么样的提取条件?还是说是别的什么东西?如果还有问题,就是用java写一个爬虫的思路是什么,我上面的想法对吗?不对的话应该怎么做?
7 回答
qq_冷_37
TA贡献1条经验 获得超1个赞
就是jsoup 里面有几个有几个方法 你到网页上 用抓包工具 找到你想抓的东西 你 想抓取什么 就拿到 标题 转下 格式 换成文档格式 在存到数据库 就可以了 也可以打出来再 控制台上 你就能看见你抓的是不是 文档格式 是就存到数据库 不是在转换下格式就好了
添加回答
举报
0/150
提交
取消