课程
                    
                        /后端开发
                        
                            /Python
                        
                        /Python开发简单爬虫

有办法让输出的url还是显示中文吗

比如这样子的，http://baike.baidu.com/item/%E9%A6%99%E6%B8%AF%E5%A4%A7%E5%AD%A6/233635

实际上是，https://baike.baidu.com/item/香港大学/23363
5

Triumph__

2018-12-09

源自：Python开发简单爬虫 7-7

关注问题我要回答

1569

操作

收起

3 回答

葬酒为安
2019-03-03

quote()可以将汉字转换为urlencode，unquote对urlencode进行解码。具体例子如下：

import urllib.parse

str = "哈哈你好"

print(urllib.parse.quote(str))

print(urllib.parse.unquote(urllib.parse.quote(str)))

0 回复有任何疑惑可以回复我~

收起回答

葬酒为安

结果如下： %E5%93%88%E5%93%88%E4%BD%A0%E5%A5%BD 哈哈你好

2019-03-03 回复有任何疑惑可以回复我~

赵崇辉
2019-01-12

def _get_new_urls(self, page_url, soup):
    new_urls = set()
    #<a target="_blank" href="/item/%E9%98%BF%E5%A7%86%E6%96%AF%E7%89%B9%E4%B8%B9/2259975" data-lemmaid="2259975">阿姆斯特丹</a>
    #https: // baike.baidu.com / item / 阿姆斯特丹 / 2259975
    links = soup.find_all('a',href=re.compile(r"/item/(.+?)"))
    for link in links:
        new_url = '/item/'+link.get_text()
        new_full_url = urlparse.urljoin(page_url,new_url)
        new_urls.add(new_full_url)
    return new_urls

0 回复有任何疑惑可以回复我~

收起回答

赵崇辉

我是这样写的，你看下能不能行

2019-01-12 回复有任何疑惑可以回复我~