为了账号安全,请及时绑定邮箱和手机立即绑定

我的_get_new_urls的函数中,在往new_urls中add的时候,add前的元素前面明明没有u,add后却前面多加了一个u,不知道是为什么,求大神告知。

def _get_new_urls(self,page_url,soup):
    new_urls=set()
    links= soup.find_all('a',href=re.compile(r"/item/*"))
    for link in links:
        new_url=link['href']
        new_full_url=urlparse.urljoin(page_url,new_url)
        print new_full_url
        new_urls.add(new_full_url)
    print new_urls
    return  new_urls

http://img1.sycdn.imooc.com//59a7e32c0001e63813980667.jpg

下面的输出中,明明网址前面没有u的呀,add后莫名其妙多了u,是为啥??

正在回答

举报

0/150
提交
取消
Python开发简单爬虫
  • 参与学习       227670    人
  • 解答问题       1219    个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

我的_get_new_urls的函数中,在往new_urls中add的时候,add前的元素前面明明没有u,add后却前面多加了一个u,不知道是为什么,求大神告知。

我要回答 关注问题
意见反馈 帮助中心 APP下载
官方微信