在解析页面源码的时候遇到这样一段。3使用jqury获得该节点的text会得到"3"这样一个字符串。并且无法采用strip()方法消去空白部分。请问这个到底是什么格式的数据?我该如何消除他?目前准备采用re.sub("D","",text)的方法还有更好的吗?
2 回答
红糖糍粑
TA贡献1815条经验 获得超6个赞
额...是啥?这个不是很清楚,但是我知道你用jquery能得到3,是因为3的的确确就是div的text,可能没仔细看或者看的不是很清楚,可以试着将其格式化再看:
3
可以很明显看到3是单独写在最外层的div标签内,至于怎么取,相信题主应该清楚了,用re或者pyquery都可以。无法消除空白,是因为那个空白是一个特殊字符,不是简单的空格或者tab