为了账号安全,请及时绑定邮箱和手机立即绑定

Python:从html搜索和收集文本字符串的更好方法。剥离减价,标签等

Python:从html搜索和收集文本字符串的更好方法。剥离减价,标签等

ibeautiful 2021-03-16 09:09:18
有很多模块,例如lxml,Beautiful汤,nltk和pyenchant,可以正确过滤出正确的英语单词。但是,然后是什么最干净的最短方法,例如html2text,如果也可以取消降价促销(我写的时候,右边有很多类似的问题)可能有一个通用的正则表达式可以删除所有的html。标签?def word_parse(f):    raw = nltk.clean_html(f) #f = url.content here, from "requests" module    regex = r'[a-zA-Z]+' # | ^[a-zA-Z]+\b'    match = re.compile(regex)    ls = []    for line in raw.split():        for mat in line.split():            try:                v = match.match(mat).group()                map(ls.append, v.split())            except AttributeError, e:                pass有人可以建议一些好的代码片段吗?有人可以在这里建议更简洁,更优化的代码吗?
查看完整描述

1 回答

?
心有法竹

TA贡献1866条经验 获得超5个赞

我强烈建议您使用现有的库,而不要尝试为此编写自己的正则表达式。例如,其他人已经在“美丽汤”中投入了大量工作,您也可能会因此受益。


对于这种特定情况,Beautiful Soup提供了get_text方法:


text = BeautifulSoup(f).get_text()


查看完整回答
反对 回复 2021-03-30
  • 1 回答
  • 0 关注
  • 127 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信