为了账号安全,请及时绑定邮箱和手机立即绑定

如何使用 goquery 提取自定义 html 标签的文本?

如何使用 goquery 提取自定义 html 标签的文本?

Go
LEATH 2022-04-26 14:34:41
我正在尝试将文本提取为自定义 html 标记(<prelogin-cookie>):someHtml := `<html><body>Login Successful!</body><!-- <saml-auth-status>1</saml-auth-status><prelogin-cookie>4242424242424242</prelogin-cookie><saml-username>my-username</saml-username><saml-slo>no</saml-slo> --></html>`query, _ := goquery.NewDocumentFromReader(strings.NewReader(someHtml))sel:= query.Find("prelogin-cookie")println(sel.Text())但它不返回任何东西,只是一个空字符串,我怎样才能得到那个 html 标签的实际文本,又名4242424242424242?
查看完整描述

1 回答

?
萧十郎

TA贡献1815条经验 获得超13个赞

<prelogin-cookie>找不到,因为它在 HTML 注释中。


您的评论实际上是一系列 XML 或 HTML 标签,如果您将其用作输入文档,它可能会被处理为 HTML。


警告。只有下面的第一个解决方案可以正确处理“所有”HTML 文档。其他解决方案更简单,也可以很好地处理您的情况,但它们可能无法处理某些极端情况。确定它们是否值得为您使用。


1.通过搜索HTML节点树

查找和提取注释的一种方法是遍历 HTML 节点树并查找类型为 的节点html.CommentNode。


为此,我们将使用递归辅助函数来遍历节点树:


func findComment(n *html.Node) *html.Node {

    if n == nil {

        return nil

    }

    if n.Type == html.CommentNode {

        return n

    }

    if res := findComment(n.FirstChild); res != nil {

        return res

    }

    if res := findComment(n.NextSibling); res != nil {

        return res

    }

    return nil

}

并使用它:


doc, err := goquery.NewDocumentFromReader(strings.NewReader(someHtml))

if err != nil {

    panic(err)

}


var comment *html.Node

for _, node := range doc.Nodes {

    if comment = findComment(node); comment != nil {

        break

    }

}

if comment == nil {

    fmt.Println("no comment")

    return

}


doc, err = goquery.NewDocumentFromReader(strings.NewReader(comment.Data))

if err != nil {

    panic(err)

}


sel := doc.Find("prelogin-cookie")

fmt.Println(sel.Text())

这将打印(在Go Playground上尝试):


4242424242424242

2. 有strings

如果您只需要处理“手头的文档”,一个更简单的解决方案可能是只使用strings包来查找评论的开始和结束索引:


start := strings.Index(someHtml, "<!--")

if start < 0 {

    panic("no comment")

}

end := strings.Index(someHtml[start:], "-->")

if end < 0 {

    panic("no comment")

}

并将其用作输入:


doc, err := goquery.NewDocumentFromReader(strings.NewReader(someHtml[start+4 : end]))

if err != nil {

    panic(err)

}


sel := doc.Find("prelogin-cookie")

fmt.Println(sel.Text())

这将输出相同的内容。在Go Playground上试一试)。


3.使用regexp

先前解决方案的一个更简单(但效率较低)的替代方案是使用正则表达式从原始文档中获取注释:


comments := regexp.MustCompile(`<!--(.*?)-->`).FindAllString(someHtml, -1)

if len(comments) == 0 {

    fmt.Println("no comment")

    return

}


doc, err := goquery.NewDocumentFromReader(strings.NewReader(

    comments[0][4 : len(comments[0])-3]))

在Go Playground上试试这个。


查看完整回答
反对 回复 2022-04-26
  • 1 回答
  • 0 关注
  • 226 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信