为了账号安全,请及时绑定邮箱和手机立即绑定

百度百科词条内链接格式分中文链接和英文链接,这种格式该怎样设置html_parser的解析器呢

百度百科的词条页面里面的链接格发生了变化,不再是/view/数字.htm,中文链接的话比如

<a target="_blank" href="/item/%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%A8%8B%E5%BA%8F%E8%AE%BE%E8%AE%A1%E8%AF%AD%E8%A8%80">计算机程序设计语言</a>

字母英文链接而是

<a target="_blank" href="/item/GPL">GPL</a>

这样的话该怎么处理呢,需要分情况处理么,怎样去分情况处理,谢谢解答

正在回答

2 回答

"/item/.*",第二个“/”后面为什么要加"."号呢?不用.号直接带*可以么?

0 回复 有任何疑惑可以回复我~

原来不用分情况,我想复杂了,直接将links = soup.find_all('a', href=re.compile(r"/item/.*")就可以,尴尬

2 回复 有任何疑惑可以回复我~

举报

0/150
提交
取消
Python开发简单爬虫
  • 参与学习       227670    人
  • 解答问题       1219    个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

百度百科词条内链接格式分中文链接和英文链接,这种格式该怎样设置html_parser的解析器呢

我要回答 关注问题
意见反馈 帮助中心 APP下载
官方微信