课程
                    
                        /后端开发
                        
                            /Python
                        
                        /Python开发简单爬虫

百度百科词条内链接格式分中文链接和英文链接，这种格式该怎样设置html_parser的解析器呢

百度百科的词条页面里面的链接格发生了变化，不再是/view/数字.htm，中文链接的话比如

<a target="_blank" href="/item/%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%A8%8B%E5%BA%8F%E8%AE%BE%E8%AE%A1%E8%AF%AD%E8%A8%80">计算机程序设计语言</a>

字母英文链接而是

<a target="_blank" href="/item/GPL">GPL</a>

这样的话该怎么处理呢，需要分情况处理么，怎样去分情况处理，谢谢解答

慕斯卡0853084

2018-04-27

源自：Python开发简单爬虫 7-5

关注问题我要回答

1025

操作

收起

2 回答

慕的地2595002
2018-09-07

"/item/.*"，第二个“/”后面为什么要加"."号呢？不用.号直接带*可以么？

0 回复有任何疑惑可以回复我~

收起回答

慕斯卡0853084 提问者
2018-04-28

原来不用分情况，我想复杂了，直接将links = soup.find_all('a', href=re.compile(r"/item/.*")就可以，尴尬

2 回复有任何疑惑可以回复我~

收起回答

0/150

提交

取消

Python开发简单爬虫

参与学习 227558 人
解答问题 1288 个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

百度百科词条内链接格式分中文链接和英文链接，这种格式该怎样设置html_parser的解析器呢

我要回答关注问题

热搜

最近搜索清空

百度百科词条内链接格式分中文链接和英文链接，这种格式该怎样设置html_parser的解析器呢

2 回答

百度百科词条内链接格式分中文链接和英文链接，这种格式该怎样设置html_parser的解析器呢