百度百科词条内链接格式分中文链接和英文链接,这种格式该怎样设置html_parser的解析器呢
百度百科的词条页面里面的链接格发生了变化,不再是/view/数字.htm,中文链接的话比如
<a target="_blank" href="/item/%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%A8%8B%E5%BA%8F%E8%AE%BE%E8%AE%A1%E8%AF%AD%E8%A8%80">计算机程序设计语言</a>
字母英文链接而是
<a target="_blank" href="/item/GPL">GPL</a>
这样的话该怎么处理呢,需要分情况处理么,怎样去分情况处理,谢谢解答