有办法让输出的url还是显示中文吗
比如这样子的,http://baike.baidu.com/item/%E9%A6%99%E6%B8%AF%E5%A4%A7%E5%AD%A6/233635
实际上是,https://baike.baidu.com/item/香港大学/23363
5
比如这样子的,http://baike.baidu.com/item/%E9%A6%99%E6%B8%AF%E5%A4%A7%E5%AD%A6/233635
实际上是,https://baike.baidu.com/item/香港大学/23363
5
2018-12-09
def _get_new_urls(self, page_url, soup): new_urls = set() #<a target="_blank" href="/item/%E9%98%BF%E5%A7%86%E6%96%AF%E7%89%B9%E4%B8%B9/2259975" data-lemmaid="2259975">阿姆斯特丹</a> #https: // baike.baidu.com / item / 阿姆斯特丹 / 2259975 links = soup.find_all('a',href=re.compile(r"/item/(.+?)")) for link in links: new_url = '/item/'+link.get_text() new_full_url = urlparse.urljoin(page_url,new_url) new_urls.add(new_full_url) return new_urls
举报