我正在使用漂亮的汤,并且正在编写一个爬虫,并且其中包含以下代码: print soup.originalEncoding #self.addtoindex(page, soup) links=soup('a') for link in links: if('href' in dict(link.attrs)): link['href'].replace('..', '') url=urljoin(page, link['href']) if url.find("'") != -1: continue url = url.split('?')[0] url = url.split('#')[0] if url[0:4] == 'http': newpages.add(url) pages = newpages该link['href'].replace('..', '')应该修复出现为../contact/orderform.aspx、../contact/requestconsult.aspx等的链接。但是,它不起作用。链接仍带有前导“ ..”。我缺少什么吗?
添加回答
举报
0/150
提交
取消