为了账号安全,请及时绑定邮箱和手机立即绑定

网页标签清洗

网页标签清洗

子衿沉夜 2018-12-05 18:19:59
希望大佬能指点一二,小弟不胜感激关于网页标签的清洗,在计算网页相似度的时候,哪些标签是可以过滤的,在这段代码生成的结果中class Structure(HTMLParser):    '''    pass    '''    def extract(self, html):        self.tmp = []        tag = ['script','style']         result = []        self.tagstack = []        self.feed(html)        for a in self.tmp:            if a.split('/')[-1] not in tag:                result.append(a)        return result    def handle_starttag(self, tag, attrs):        self.tagstack.append(tag)    def handle_endtag(self, tag):        self.tagstack.pop()    def handle_data(self, data):        t = ''        if data.strip():            for tag in self.tagstack:                t = t + '/' + tag            self.tmp.append(t)用这个网页生成的结果举例,过滤/span/p结尾的标签,如果是其他的网页是不是也可以这么过滤,如果不是的话该怎么过滤,是不是还得考虑标签属性?补充:计算的是网页结构相似度,不考虑正文相似度
查看完整描述

1 回答

  • 1 回答
  • 0 关注
  • 427 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信