我的_get_new_urls的函数中,在往new_urls中add的时候,add前的元素前面明明没有u,add后却前面多加了一个u,不知道是为什么,求大神告知。
def _get_new_urls(self,page_url,soup): new_urls=set() links= soup.find_all('a',href=re.compile(r"/item/*")) for link in links: new_url=link['href'] new_full_url=urlparse.urljoin(page_url,new_url) print new_full_url new_urls.add(new_full_url) print new_urls return new_urls
下面的输出中,明明网址前面没有u的呀,add后莫名其妙多了u,是为啥??