原有页面html代码:abcdadcabSUPOUTOUT(VVbaaV要用python程序,将该html页面修改为如下模样:43231313212121对比两个页面代码,可以看到,是要将每一个标签内的每一个text替换为该text的位数,同时要保证原有的dom结构与标签属性不发生任何改变,最后要将结果保存为新页面。我用beautifulsoup怎么搞也搞不出来,是这个需求太怪异了吗?求大神帮助。(上面的页面只是示例,真实页面dom结构嵌套更多,硬编码是无意义的。)
2 回答
jeck猫
TA贡献1909条经验 获得超7个赞
importredeff(m):s=m.group(1)length=len(s.strip())iflength==0:return'>{}<'.format(s)return'>{}<'.format(re.sub('\S+.?\S?',str(length),s))p=re.compile('>(.*?)<',re.S)print(p.sub(f,html))
添加回答
举报
0/150
提交
取消