为了账号安全,请及时绑定邮箱和手机立即绑定

使用jsoup从body标签中提取innerHtml

使用jsoup从body标签中提取innerHtml

拉风的咖菲猫 2019-04-26 17:15:38
我正在使用jsoup解析html并想要在body标签内提取innerHtml到目前为止,我尝试并使用document.body.childern()。outerHtml; 但它只提供html元素并在正文内部跳过浮动文本(不包含在任何html标记内)private String getBodyTag(final Document document) {         return document.body().children().outerHtml();}输入:<!DOCTYPE html><html lang="de">     <head>         <META http-equiv="Content-Type" content="text/html; charset=UTF-8">         <link rel="stylesheet" type="text/css" href="assets/style.css">     </head>     <body>        <div>questions to improve formatting and clarity.</div>        <h3>Guided Mode</h3>         some sample raw/floating text    </body></html>预期:<div>questions to improve formatting and clarity.</div><h3>Guided Mode</h3> some sample raw/floating text实际:<div>questions to improve formatting and clarity.</div><h3>Guided Mode</h3>
查看完整描述

2 回答

?
小唯快跑啊

TA贡献1863条经验 获得超2个赞

请使用这个:

private String getBodyTag(final Document document) {
    return document.body().html();}


查看完整回答
反对 回复 2019-05-15
?
慕后森

TA贡献1802条经验 获得超5个赞

您可以尝试返回document.body.innerHtml;,因此它会返回body标记内的所有内容,包括任何标记之外的文本。

据我所知,你试图完成它的方式不起作用,因为“原始文本”不被视为孩子。


查看完整回答
反对 回复 2019-05-15
  • 2 回答
  • 0 关注
  • 1213 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信