为了账号安全,请及时绑定邮箱和手机立即绑定

_Scrape_ 块引用 bs4 后的文本

_Scrape_ 块引用 bs4 后的文本

小怪兽爱吃肉 2023-06-06 14:46:11
我在 HTML 中有这样的东西:<p align="left"><strong><tt>        some text:</tt></strong><tt> (8/4)</tt><a href="some link"><tt>some other text</tt></a><tt>, (9/4)</tt><a href="some other link"><tt><br/>        some text:</tt></strong><tt>, (19/6)</tt><!--a href="some link in comment"--><tt>text after comment</tt></p></blockquote></blockquote><tt>, </tt><a href="link i want"><tt>text i want</tt></a><strong><tt><br/>...</p>        我在 Python 中的代码:page = requests.get(site)soup = BeautifulSoup(page.content, 'html.parser')rounds = soup.find('p', align="left")matches_links = rounds.find_all('a')我得到了一些评论和文本的所有链接。之后我什么也得不到</blockquote></blockquote>。这两个块引用在页面代码中是不可见的,只有当我调试我的 Python 代码时我才能在soup. 我有soup所有 HTML 代码,但rounds代码以<tt>text after comment</tt></p>.有什么方法可以获得“我想要的链接”和“我想要的文字”?
查看完整描述

1 回答

?
开满天机

TA贡献1786条经验 获得超13个赞

如果您查看 HTML 代码,您会看到有</p>before </blockquote></blockquote>。这意味着您的变量rounds不包含您想要的链接。<a>在此标签后搜索下一个<p>:


from bs4 import BeautifulSoup



txt = '''

<p align="left"><strong><tt>

        some text:</tt></strong><tt> (8/4)</tt><a href="some link"><tt>some other text</tt></a><tt>, (9/4)</tt><a href="some other link"><tt><br/>

        some text:</tt></strong><tt>, (19/6)</tt><!--a href="some link in comment"--><tt>text after comment</tt></p></blockquote></blockquote><tt>, </tt><a href="link i want"><tt>text i want</tt></a><strong><tt><br/>

...

</p>

'''


soup = BeautifulSoup(txt, 'html.parser')


matched_link = soup.select_one('p[align="left"] ~ a')

print(matched_link)

印刷:


<a href="link i want"><tt>text i want</tt></a>


查看完整回答
反对 回复 2023-06-06
  • 1 回答
  • 0 关注
  • 89 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信