首页猿问将包括锦标赛在内的网球成绩表刮到每一行

将包括锦标赛在内的网球成绩表刮到每一行

Python

慕妹3146593 2023-06-13 17:04:03

我想从此页面抓取比赛结果：https://www.tennisexplorer.com/player/paire-4a33b/从抓取的结果中，我想创建包含以下列的表：tournament、date、match_player_1、match_player_2、round、score 我创建了一个代码，它有效，但我不知道如何为每个比赛行添加比赛import requestsfrom bs4 import BeautifulSoupu = 'https://www.tennisexplorer.com/player/paire-4a33b/'r = requests.get(u, timeout=120, headers=headers)# print(r.status_code)soup = BeautifulSoup(r.content, 'html.parser')for tr in soup.select('#matches-2020-1-data tr'): match_date = tr.select_one('td:nth-of-type(1)').get_text(strip=True) match_surface = tr.select_one('td:nth-of-type(2)').get_text(strip=True) match = tr.select_one('td:nth-of-type(3)').get_text(strip=True)#...我需要像这样创建表：tournament date match_player_1 match_player_2 round scoreCincinnati Masters (New York) 22.08. Coric B. Paire B. 1R 6-0, 1-0Ultimate Tennis Showdown 2 01.08. Moutet C. Paire B. NaN 15-0, 15-0, 15-0, 15-0我如何将锦标赛与每场比赛联系起来

查看完整描述

2 回答

30秒到达战场

TA贡献1828条经验获得超6个赞

要获得所需的 DataFrame，您可以这样做：

import requests

import pandas as pd

from bs4 import BeautifulSoup

url = 'https://www.tennisexplorer.com/player/paire-4a33b/'

soup = BeautifulSoup( requests.get(url).content, 'html.parser' )

all_data = []

for row in soup.select('#matches-2020-1-data tr:not(:has(th))'):

tds = [td.get_text(strip=True, separator=' ') for td in row.select('td')]

all_data.append({

'tournament': row.find_previous('tr', class_='head flags').find('td').get_text(strip=True),

'date': tds[0],

'match_player_1': tds[2].split('-')[0].strip(),

'match_player_2': tds[2].split('-')[-1].strip(),

'round': tds[3],

'score': tds[4]

})

df = pd.DataFrame(all_data)

df.to_csv('data.csv')

保存data.csv（来自 LibreOffice 的屏幕截图）：

//img1.sycdn.imooc.com//6488311e0001c08206540458.jpg

反对回复 2023-06-13

一只甜甜圈

TA贡献1836条经验获得超5个赞

尝试一下：

import pandas as pd

url = "https://www.tennisexplorer.com/player/paire-4a33b/"

df = pd.read_html(url)[8]

new_data = {"tournament":[], "date":[], "match_player_1":[], "match_player_2":[],

"round":[], "score":[]}

for index, row in df.iterrows():

try:

date = float(row.iloc[0][:-1])

new_data["tournament"].append(tourn)

new_data["date"].append(row.iloc[0])

new_data["match_player_1"].append(row.iloc[2].split("-")[0])

new_data["match_player_2"].append(row.iloc[2].split("-")[1])

new_data["round"].append(row.iloc[3])

new_data["score"].append(row.iloc[4])

except Exception as e:

tourn = row.iloc[0]

data = pd.DataFrame(new_data)

反对回复 2023-06-13

2 回答
0 关注
131 浏览

关注

添加回答

0/150

提交

取消

热搜

最近搜索清空

将包括锦标赛在内的网球成绩表刮到每一行

将包括锦标赛在内的网球成绩表刮到每一行

2 回答

添加回答