为了账号安全,请及时绑定邮箱和手机立即绑定

为什么我不能用漂亮的汤刮?

为什么我不能用漂亮的汤刮?

素胚勾勒不出你 2022-06-02 16:23:49
我需要从这个网站上刮下唯一的桌子:https ://core.ap.gov.in/CMDashBoard/UserInterface/eAgriculture/eAgricultureVillagewise.aspx?mandal=Agali&district=Anantapuramu我用了漂亮的汤和请求,但没有成功。你们能建议我哪里出错了吗?mandal_url = "https://core.ap.gov.in/CMDashBoard/UserInterface/eAgriculture/eAgricultureVillagewise.aspx?mandal=Agali&district=Anantapuramu"r = requests.get(mandal_url, verify=False).contentsoup = bs4.BeautifulSoup(r, 'lxml')df = pd.read_html(str(soup.find('table',{"id":"gvAgricultureVillage"})))我在数据框中看到“找不到页面”。我不知道我哪里错了!
查看完整描述

3 回答

?
慕少森

TA贡献2019条经验 获得超9个赞

该页面可能需要某种登录。通过单击链接自己查看它,我得到

//img1.sycdn.imooc.com//629873b500017f2b19170914.jpg

您需要将 cookie / 其他一些标头添加到请求中以显示“已登录”。



查看完整回答
反对 回复 2022-06-02
?
眼眸繁星

TA贡献1873条经验 获得超9个赞

尝试单击您尝试从无效链接中抓取的链接。当我单击您提供的链接或您存储的链接时mandal_url,都返回“找不到页面”页面。因此,您以正确的方式进行抓取,但是您提供抓取工具的 url无效/不再可用。



查看完整回答
反对 回复 2022-06-02
?
ABOUTYOU

TA贡献1812条经验 获得超5个赞

我无法访问该网站。但是您可以通过以下方式直接阅读网页上的表格:

dfs = pd.read_html(your_url, header=0)

如果 url 需要身份验证,您可以通过以下方式获取表单:

r = requests.get(url_need_authentivation, auth=('myuser', 'mypasswd'))
pd.read_html(r.text, header=0)[1]

这将简化您的代码。希望能帮助到你!


查看完整回答
反对 回复 2022-06-02
  • 3 回答
  • 0 关注
  • 128 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信