为了账号安全,请及时绑定邮箱和手机立即绑定

如何将网页抓取的数据添加到 Python 中的集合

如何将网页抓取的数据添加到 Python 中的集合

尚方宝剑之说 2021-10-05 16:22:54
我正在尝试从网站上抓取 URL 并使用一组将它们发送到 .CSV 文件,以便删除重复的 URL。我了解集合是什么以及如何创建集合,我只是不明白如何将网络抓取的数据发送到集合。我假设它在 for 循环中,但我是 Python 新手并且不太确定。这是我的代码的尾端:url_list=soup.find_all('a')with open('HTMLList.csv','w',newline="") as f:    writer=csv.writer(f,delimiter=' ',lineterminator='\r')    for link in url_list:        url=str(link.get('href'))        if url:            if 'https://www.example.com' not in url:                url = 'https://www.example.com' + url            writer.writerow([url])f.close()我知道我需要创建一个 set() 并将 URL 添加到该集合中,但我不确定如何并且我被告知它也将删除任何重复项,这会很棒。任何帮助将非常感激。谢谢!
查看完整描述

1 回答

  • 1 回答
  • 0 关注
  • 189 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信