美丽汤抓取可见网页文本基本上,我想用美丽的汤严格地抓住可见文本在网页上。例如,本网页是我的测试用例。我主要想要的是正文(文章),甚至还有几个标签名。我已经尝试过这方面的建议了。所以问题返回大量的<script>标签和html注释,我不想要。我不知道函数需要什么参数findAll()为了在网页上看到可见的文本。那么,我应该如何找到所有可见的文本,不包括脚本,评论,CSS等?
3 回答
qq_遁去的一_1
TA贡献1725条经验 获得超7个赞
html = open('21storm.html').read()soup = BeautifulSoup(html)[s.extract() for s in soup(['style', 'script', '[document]', 'head', 'title'])] visible_text = soup.getText()
添加回答
举报
0/150
提交
取消