为了账号安全,请及时绑定邮箱和手机立即绑定

如何抓取 HTML 表格格式的数据?

如何抓取 HTML 表格格式的数据?

肥皂起泡泡 2023-03-16 09:26:22
我正在尝试从https://www.msamb.com/ApmcDetail/ArrivalPriceInfo网站抓取数据。这是我要抓取的数据。所以,在高亮的下拉选择框中有148个商品。截至目前,我正在通过选择每个单独的商品来手动复制数据。这需要大量的手动工作来提取数据。所以,为了让它自动化,我开始使用 Python。以下是我在 Python (3.7.8) 代码中使用的库。硒美汤熊猫这是我的 Python 代码。from selenium import webdriverfrom bs4 import BeautifulSoupimport pandas as pdfrom selenium.webdriver.support.ui import Select#from selenium.webdriver.common.by import Bydriver = webdriver.Chrome(executable_path='G:/data/depend/chromedriver.exe')driver.get('https://www.msamb.com/ApmcDetail/ArrivalPriceInfo/')commodity = Select(driver.find_element_by_id("CommoditiesId"))#able to select commodities by valuecommodity.select_by_value('08005')# Iterating over the all the commodity an fetching <td> elementfor option in commodity.options:    #print(option.text)    soup = BeautifulSoup(option.text)    print(soup)        rows = soup.select('tr')    print(rows)    for row in rows[1:]:        td = row.find_all('td')        print(td)        APMC = td[0].text.strip()        print(APMC)在这里,我可以从下拉选择框中通过等于CommoditiesId的id获取商品。获取商品列表 (148) 后,我将尝试解析为该特定商品获取的 HTML 表格内容。在这里,我能够为每次迭代打印商品名称,但无法打印APMC 、Variety、Unit、Quantity、Lrate、Hrate、Modal列数据。如果以上解决了,我想要分隔格式的输出~|~并想要添加两列,即Date, Commodity。因此,示例输出将如下所示(截至目前,手动准备以下数据文件)。Date~|~Commodity~|~APMC~|~Variety~|~Unit~|~Quantity~|~Lrate~|~Hrate~|~Modal    2020-07-11~|~APPLE~|~KOLHAPUR~|~QUINTAL~|~17~|~8500~|~14500~|~11500    2020-07-11~|~APPLE~|~CHANDRAPUR-GANJWAD~|~QUINTAL~|~9~|~15000~|~17000~|~16000    2020-07-11~|~APPLE~|~NASHIK~|~DILICIOUS- No.1~|~QUINTAL~|~60~|~9500~|~16000~|~13000    2020-07-11~|~AMBAT CHUKA~|~PANDHARPUR~|~~|~NAG~|~7~|~10~|~10~|~10    2020-07-10~|~AMBAT CHUKA~|~PUNE-MANJRI~|~~|~NAG~|~400~|~3~|~6~|~4    2020-07-10~|~AMBAT CHUKA~|~PUNE~|~LOCAL~|~NAG~|~1300~|~4~|~5~|~4
查看完整描述

2 回答

?
交互式爱情

TA贡献1712条经验 获得超3个赞

此脚本将遍历所有页面并将它们保存到标准 csv 和~|~分隔文本文件中:


import requests

import numpy as np

import pandas as pd

from bs4 import BeautifulSoup



url = 'https://www.msamb.com/ApmcDetail/ArrivalPriceInfo'

detail_url = 'https://www.msamb.com/ApmcDetail/DataGridBind?commodityCode={code}&apmcCode=null'

headers = {'Referer': 'https://www.msamb.com/ApmcDetail/ArrivalPriceInfo'}


soup = BeautifulSoup(requests.get(url).content, 'html.parser')

values = [(o['value'], o.text) for o in soup.select('#CommoditiesId option') if o['value']]


all_data = []

for code, code_name in values:

    print('Getting info for code {} {}'.format(code, code_name))

    soup = BeautifulSoup(requests.get(detail_url.format(code=code), headers=headers).content, 'html.parser')


    current_date = ''

    for row in soup.select('tr'):

        if row.select_one('td[colspan]'):

            current_date = row.get_text(strip=True)

        else:

            row = [td.get_text(strip=True) for td in row.select('td')]

            all_data.append({

                'Date': current_date,

                'Commodity': code_name,

                'APMC': row[0],

                'Variety': row[1],

                'Unit': row[2],

                'Quantity': row[3],

                'Lrate': row[4],

                'Hrate': row[5],

                'Modal': row[6],

            })


df = pd.DataFrame(all_data)

print(df)

df.to_csv('data.csv')                                       # <-- saves standard csv

np.savetxt('data.txt', df, delimiter='~|~', fmt='%s')       # <-- saves .txt file with '~|~' delimiter

印刷:


...


Getting info for code 08071 TOMATO

Getting info for code 10006 TURMERIC

Getting info for code 08075 WAL BHAJI

Getting info for code 08076 WAL PAPDI

Getting info for code 08077 WALVAD

Getting info for code 07011 WATER MELON

Getting info for code 02009 WHEAT(HUSKED)

Getting info for code 02012 WHEAT(UNHUSKED)

            Date        Commodity          APMC Variety     Unit Quantity Lrate Hrate Modal

0     18/07/2020      AMBAT CHUKA    PANDHARPUR    ----      NAG       50     5     5     5

1     16/07/2020      AMBAT CHUKA    PANDHARPUR    ----      NAG       50     5     5     5

2     15/07/2020      AMBAT CHUKA    PANDHARPUR    ----      NAG      100     9     9     9

3     13/07/2020      AMBAT CHUKA    PANDHARPUR    ----      NAG       16     7     7     7

4     13/07/2020      AMBAT CHUKA          PUNE   LOCAL      NAG     2400     4     7     5

...          ...              ...           ...     ...      ...      ...   ...   ...   ...

4893  12/07/2020    WHEAT(HUSKED)        SHIRUR   No. 2  QUINTAL        2  1400  1400  1400

4894  17/07/2020  WHEAT(UNHUSKED)  SANGLI-MIRAJ    ----  QUINTAL      863  4000  4600  4300

4895  16/07/2020  WHEAT(UNHUSKED)  SANGLI-MIRAJ    ----  QUINTAL      475  4000  4500  4250

4896  15/07/2020  WHEAT(UNHUSKED)  SANGLI-MIRAJ    ----  QUINTAL      680  3900  4400  4150

4897  13/07/2020  WHEAT(UNHUSKED)  SANGLI-MIRAJ    ----  QUINTAL     1589  3900  4450  4175


[4898 rows x 9 columns]

节省data.txt:


0~|~18/07/2020~|~AMBAT CHUKA~|~PANDHARPUR~|~----~|~NAG~|~50~|~5~|~5~|~5

1~|~16/07/2020~|~AMBAT CHUKA~|~PANDHARPUR~|~----~|~NAG~|~50~|~5~|~5~|~5

2~|~15/07/2020~|~AMBAT CHUKA~|~PANDHARPUR~|~----~|~NAG~|~100~|~9~|~9~|~9

3~|~13/07/2020~|~AMBAT CHUKA~|~PANDHARPUR~|~----~|~NAG~|~16~|~7~|~7~|~7

4~|~13/07/2020~|~AMBAT CHUKA~|~PUNE~|~LOCAL~|~NAG~|~2400~|~4~|~7~|~5

5~|~12/07/2020~|~AMBAT CHUKA~|~PUNE~|~LOCAL~|~NAG~|~1700~|~3~|~8~|~5

6~|~19/07/2020~|~APPLE~|~KOLHAPUR~|~----~|~QUINTAL~|~3~|~9000~|~14000~|~11500

7~|~18/07/2020~|~APPLE~|~KOLHAPUR~|~----~|~QUINTAL~|~12~|~8500~|~15000~|~11750

8~|~18/07/2020~|~APPLE~|~NASHIK~|~DILICIOUS- No.1~|~QUINTAL~|~110~|~9000~|~16000~|~13000

9~|~18/07/2020~|~APPLE~|~SANGLI-PHALE BHAJIPALAM~|~LOCAL~|~QUINTAL~|~8~|~12000~|~16000~|~14000

10~|~17/07/2020~|~APPLE~|~MUMBAI-FRUIT MARKET~|~----~|~QUINTAL~|~264~|~9000~|~12000~|~10500

...

来自 LibreOffice 的 csv 文件的屏幕截图:

//img1.sycdn.imooc.com//641270a20001835b09970757.jpg

查看完整回答
反对 回复 2023-03-16
?
慕后森

TA贡献1802条经验 获得超5个赞

您可以将它们保存到 txt 文件中,您可以这样做df = pd.read_csv("out.txt",delimiter='~|~'),或者

date = df['Date'] commodity = df['Commodity']

您可以将 apmc 附加到列表中,并在最后附加 read_as 数据框。


查看完整回答
反对 回复 2023-03-16
  • 2 回答
  • 0 关注
  • 127 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信