为了账号安全,请及时绑定邮箱和手机立即绑定

如何计算 HTML 文件或 HTML 字符串中的字符数和单词数?

如何计算 HTML 文件或 HTML 字符串中的字符数和单词数?

Go
绝地无双 2022-12-13 16:16:47
我从 HTML 文件中输入了这个字符串:<h1> Hello world </h1> 我想计算这个文件的单词和字符数(不包括 HTML 元素)例如:Input <h1>Hello</h1>\n<h1>Hello</h1>OutputCharacters : 10Word : 2我相信会有一个步骤我们首先解析这个 HTML 内容。但我不知道哪个包支持。
查看完整描述

1 回答

?
慕虎7371278

TA贡献1802条经验 获得超4个赞

您可以通过正则表达式找到它们。


    input := []byte("<h1>Hello</h1>\n<h1>Hello</h1>")


    tags, _ := regexp.Compile("(\\<\\/?[A-z0-9]+\\>)|(\\\\[A-z]{1})")

    // remove tags and backslash characters

    input = tags.ReplaceAll(input, []byte(" "))


    words, _ := regexp.Compile("[A-z0-9]+")

    // find all matched words and count them

    fmt.Println("total words: ", len(words.FindAll(input, -1)))


    chars, _ := regexp.Compile("[A-z0-9]{1}")

    // find all matched characters and count them

    fmt.Println("total characters: ", len(chars.FindAll(input, -1)))    

输出:


total words:  2

total characters:  10


查看完整回答
反对 回复 2022-12-13
  • 1 回答
  • 0 关注
  • 162 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信