我正在尝试从网站上抓取 URL 并使用一组将它们发送到 .CSV 文件,以便删除重复的 URL。我了解集合是什么以及如何创建集合,我只是不明白如何将网络抓取的数据发送到集合。我假设它在 for 循环中,但我是 Python 新手并且不太确定。这是我的代码的尾端:url_list=soup.find_all('a')with open('HTMLList.csv','w',newline="") as f: writer=csv.writer(f,delimiter=' ',lineterminator='\r') for link in url_list: url=str(link.get('href')) if url: if 'https://www.example.com' not in url: url = 'https://www.example.com' + url writer.writerow([url])f.close()我知道我需要创建一个 set() 并将 URL 添加到该集合中,但我不确定如何并且我被告知它也将删除任何重复项,这会很棒。任何帮助将非常感激。谢谢!
添加回答
举报
0/150
提交
取消