课程
                    
                        /后端开发
                        
                            /Python
                        
                        /Python开发简单爬虫

为什么我的只爬了条就失败了，和老师的代码一样的。结果就出了一个craw 1 : http://baike.baidu.com/item/Python craw failed

。。。。。

Say_u_ggh

2017-05-03

源自：Python开发简单爬虫 7-7

关注问题我要回答

957

操作

收起

5 回答

qq_爱笑的凯伦_0
2017-09-27

问下这个问题有解决的吗？都改了还是不行

1 回复有任何疑惑可以回复我~

收起回答

小黑屋终结者
2017-06-05

links = soup.find_all('a', href=re.compile(r'/item/.*?'))

0 回复有任何疑惑可以回复我~

收起回答

梦想中的A神

这个正则表达式是什么意思？ .代表任意字符 *表示前一个字符0个或者无限个，可是有了*为啥后面还有个？号，？不是代表前一个字符0次或者1次吗？求解答一下还有就是我只能爬148条就报错了。

2017-07-31 回复有任何疑惑可以回复我~

燃学回复梦想中的A神

*？是非贪婪匹配，即尽可能少的去匹配

2018-02-28 回复有任何疑惑可以回复我~

慕斯卡7677556 回复燃学

但是我这样改了以后还是指出来一条诶。。。不知道是怎么回事

2018-05-29 回复有任何疑惑可以回复我~

SiCheng_Sheen
2017-05-27

我之前也遇到过这种情况，纠结了很久，最后才发现一个非常重要的问题，百度的词条信息发生了变化，你可以仔细看看，现在不再是以 .htm结尾了，之前在html_parser模块中的正则表达式已经失效了，原来是href=re.compile(r"/view/\d+\.htm")，现在应该改为href=re.compile(r'/item/\w+')。这也再次证明了在采集数据前，一定要对目标进行仔细认真的分析！

2 回复有任何疑惑可以回复我~

收起回答

慕容2413200

真棒，

2017-08-09 回复有任何疑惑可以回复我~