为了账号安全,请及时绑定邮箱和手机立即绑定

美丽汤抓取可见网页文本

美丽汤抓取可见网页文本

HUWWW 2019-07-15 10:02:06
美丽汤抓取可见网页文本基本上,我想用美丽的汤严格地抓住可见文本在网页上。例如,本网页是我的测试用例。我主要想要的是正文(文章),甚至还有几个标签名。我已经尝试过这方面的建议了。所以问题返回大量的<script>标签和html注释,我不想要。我不知道函数需要什么参数findAll()为了在网页上看到可见的文本。那么,我应该如何找到所有可见的文本,不包括脚本,评论,CSS等?
查看完整描述

3 回答

?
qq_遁去的一_1

TA贡献1725条经验 获得超7个赞

批准的答案对我不起作用。str()函数调用引发异常,因为它不能对BeautifulSoup元素中的非ascii字符进行编码。下面是一种将示例网页过滤为可见文本的更简洁的方法。

html = open('21storm.html').read()soup = BeautifulSoup(html)[s.extract() for s in soup(['style', 'script', '[document]', 'head', 'title'])]
visible_text = soup.getText()


查看完整回答
反对 回复 2019-07-15
  • 3 回答
  • 0 关注
  • 564 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信