课程
/后端开发
/Python
/Python开发简单爬虫
。。。。。
2017-05-03
源自:Python开发简单爬虫 7-7
正在回答
问下这个问题有解决的吗?都改了还是不行
links = soup.find_all('a', href=re.compile(r'/item/.*?'))
梦想中的A神
燃学 回复 梦想中的A神
慕斯卡7677556 回复 燃学
我之前也遇到过这种情况,纠结了很久,最后才发现一个非常重要的问题,百度的词条信息发生了变化,你可以仔细看看,现在不再是以 .htm结尾了,之前在html_parser模块中的正则表达式已经失效了,原来是href=re.compile(r"/view/\d+\.htm"),现在应该改为href=re.compile(r'/item/\w+')。这也再次证明了在采集数据前,一定要对目标进行仔细认真的分析!
慕容2413200
我也是 按照上面的改过之后还是不行
请问你弄好了吗
可以告诉我一下方法吗
Ego_1973
Ramon_Lee
我前面也是爬了条,将url改为http://baike.baidu.com/item/Python parser中改为re.compile(r"\item")就可,虽然爬的内容不一样了。。。 。但是还是能通-,-
可口
举报
本教程带您解开python爬虫这门神奇技术的面纱