首页猿问如何从列表中删除有错误的 URL？

如何从列表中删除有错误的 URL？

Html5

慕姐4208626 2023-10-10 10:21:40

我将 1000 多个 URL 的列表（这些 URL 用于下载报告）保存在一个.csv文件中。有些 URL 已经存在404 error，我想找到一种方法将它们从列表中删除。我设法编写了一段代码来识别下面哪个 URL 无效（对于 python 3）。但是，由于存在许多 URL，我不知道如何自动从列表中删除这些 URL。谢谢你！from urllib.request import urlopenfrom urllib.error import HTTPErrortry: urlopen("url")except HTTPError as err: if err.code == 404: print ('invalid') else: raise

查看完整描述

4 回答

犯罪嫌疑人X

TA贡献2080条经验获得超4个赞

您可以使用另一个列表来保存404 url（如果404 url小于正常url），然后获取差异集，所以：

from urllib.request import urlopen

from urllib.error import HTTPError

exclude_urls = set()

try:

urlopen("url")

except HTTPError as err:

if err.code == 404:

exclude_urls.add(url)

valid_urls = set(all_urls) - exclude_urls

反对回复 2023-10-10

至尊宝的传说

TA贡献1789条经验获得超10个赞

你可以这样做：

from urllib.request import urlopen

from urllib.error import HTTPError

def load_data(csv_name):

...

def save_data(data,csv_name):

...

links=load_data(csv_name)

new_links=set()

for i in links:

try:

urlopen("url")

except HTTPError as err:

if err.code == 404:

print ('invalid')

else:

new_links.add(i)

save_data( list(new_links),csv_name)

反对回复 2023-10-10

沧海一幻觉

TA贡献1824条经验获得超5个赞

考虑列表 A 包含所有 url。

A = A.remove("invalid_url")

反对回复 2023-10-10

慕娘9325324

TA贡献1783条经验获得超4个赞

尝试这样的事情：

from urllib.request import urlopen

from urllib.error import HTTPError

# 1. Load the CSV file into a list

with open('urls.csv', 'r') as file:

reader = csv.reader(file)

urls = [row[0] for row in reader] # Assuming each row has one URL

# 2. Check each URL for validity using your code

valid_urls = []

for url in urls:

try:

urlopen(url)

valid_urls.append(url)

except HTTPError as err:

if err.code == 404:

print(f'Invalid URL: {url}')

else:

raise # If it's another type of error, raise it so you're aware

# 3. Write the cleaned list back to the CSV file

with open('cleaned_urls.csv', 'w') as file:

writer = csv.writer(file)

for url in valid_urls:

writer.writerow([url])

反对回复 2023-10-10

4 回答
0 关注
149 浏览

关注

添加回答

0/150

提交

取消

热搜

最近搜索清空

如何从列表中删除有错误的 URL？

如何从列表中删除有错误的 URL？

4 回答

添加回答