从Python中的字符串中剥离HTMLfrom mechanize import Browserbr = Browser()br.open('http://somewebpage')html = br.response().readlines()for line in html:
print line在HTML文件中打印一行时,我试图找到一种方法只显示每个HTML元素的内容,而不是格式本身。如果它发现'<a href="whatever.com">some text</a>',它只会打印“一些文本”,'<b>hello</b>'打印“你好”等等。你会怎么做呢?
5 回答
手掌心
TA贡献1942条经验 获得超3个赞
from HTMLParser import HTMLParserclass MLStripper(HTMLParser): def __init__(self): self.reset() self.fed = [] def handle_data(self, d): self.fed.append(d) def get_data(self): return ''.join(self.fed)def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
from html.parser import HTMLParserclass MLStripper(HTMLParser): def __init__(self): self.reset() self.strict = False self.convert_charrefs= True self.fed = [] def handle_data(self, d): self.fed.append(d) def get_data(self): return ''.join(self.fed)def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
注
动漫人物
TA贡献1815条经验 获得超10个赞
re.sub('<[^<]+?>', '', text)
<...>
+
<
?
<p>Hello</p>
<'p>
</p>
?
<..Hello..>
.
<
2 < 3
&...
^<
添加回答
举报
0/150
提交
取消