课程
                    
                        /后端开发
                        
                            /Python
                        
                        /Python开发简单爬虫

只出了两个结果= =后来调试出来了，但是拼接那出错，也不知道是什么原因一直拼接不成功

只出两条结果的看这里，刚写出来。每次爬去都只出一个百科python，和史记连接显示，output只有python一个结果的找了一下午原因、发现是url没有拼接成功改了半天、但是就是找不出什么原因因为没有拼接成功重新复制了一下入口网址和连接词的模糊匹配的路径，莫名其妙的就出来了= = 有大神给我解释一下咩

慕粉0542715

2017-04-21

源自：Python开发简单爬虫 7-7

关注问题我要回答

532

操作

收起

3 回答

SiCheng_Sheen
2017-05-27

我之前也遇到过这种情况，纠结了很久，最后才发现一个非常重要的问题，百度的词条信息发生了变化，你可以仔细看看，现在不再是以 .htm结尾了，之前在html_parser模块中的正则表达式已经失效了，原来是href=re.compile(r"/view/\d+\.htm")，现在应该改为href=re.compile(r'/item/\w+')。这也再次证明了在采集数据前，一定要对目标进行仔细认真的分析！