我有一张跨越很多页的表格。我能够从指定页面提取信息并将其提取到 CSV 表中。我现在的目标是让它迭代所有页面并将其添加到上一页信息的底部。这是迄今为止在单个页面上运行的代码:import requestsimport pandas as pdurl = 'https://www.mineralanswers.com/oklahoma/producers?page=1'html = requests.get(url).contentdf_list = pd.read_html(html)df = df_list[-1]print(df)df.to_csv('my data.csv')页面 URL 设置为“... Producers?page = 1,... Producers?page = 2 ... Producers?page = 3”格式,所以我觉得可能使用循环,我只是有麻烦修改数据而不是覆盖它。
1 回答
鸿蒙传说
TA贡献1865条经验 获得超7个赞
以下是更正后的示例代码,用于获取 3 页并将它们附加到一个 DataFrame。
import requests
import pandas as pd
df = pd.DataFrame()
for page in range(1, 4):
url = 'https://www.mineralanswers.com/oklahoma/producers?page=' + str(page)
html = requests.get(url).content
df_list = pd.read_html(html)
df = df.append(df_list[-1], ignore_index = True)
df.to_csv('my data.csv')
添加回答
举报
0/150
提交
取消