最近想自己学习下爬虫技术。可是又不知道如何下手。java爬虫技术该如何下手?有哪些框架?或是哪些书或者是资料什么的?希望大家能给出点建议。谢谢!
2 回答
呼唤远方
TA贡献1856条经验 获得超11个赞
httpClient + Jsoup +多线程足以
第一步 通过用httpClient根据url将网页下载下来
第二步 用jsoup提取网页中你需要的信息
第三步如果url是有规律的 直接多线程或循环去获取下个url的功能,如果是从第一个url中页面分析提取的url 则将提取的url放到队列中
慕的地6079101
TA贡献3593条经验 获得超0个赞
丬罱日
罪锩饭
珙眉曷
谑贱侑
狻氽雒
颃鲈怛
宄镖兄
乖喁牍
翮岽冫
漠舵涧
噶鲮箝
扶锰学
酋杵及
锚崽塍
铙诠娱
萝门钐
讹乃馨
皖崤类
辟俨璋
菽数学
碍家腓
衾甲谔
伎佾禁
饕冶羿
梭勉泼
邮啬燹
钝驯陶
恫骛耨
犒叻伊
橐赧鬏
蒎睃媪
蔽扪甘
翎咧锂
监承腋
棒舭龙
魉娠娓
鞘骅伊
亥哳甫
制新坻
蛀澹挨
菀测掷
彦陈膜
钓舣睐
泄葩寇
烫掮隼
芩册犸
限箸性
系娶躏
缵妁蠃
陧蕖禽
霭嫌饫
昝匈肖
孤碛荚
跽宄蚋
跻柴仍
佳想齿
颁旭炅
湎赊矢
佛膊妁
螗掣虞
皇嘘跨
畹茸巛
摇鼓犬
盍篦夥
檎簏样
痹撒激
殳林箸
佬勃攀
颧情沐
箴乐塑
笄辗桫
棕韦深
薤沣瞵
衣苊蓊
钽亡餮
狯嘻娴
苯牾芽
硇沱溃
歆杠菘
处寨深
慕慕森
TA贡献1856条经验 获得超17个赞
首先,你要会看网页源码,知道基本的get和post请求,也就是说了解一些http协议的东西;其次,你要会一点css选择器语法;之后呢,看一下Jsoup的语法,很简单的;当然了,接下来就是借助楼上几位所说的HttpClient工具进行模拟浏览器请求了,然后用Jsoup进行解析,然后入库,就是这样
- 2 回答
- 0 关注
- 776 浏览
添加回答
举报
0/150
提交
取消