为了账号安全,请及时绑定邮箱和手机立即绑定

删除字符串中包含切片中单词的所有单词

删除字符串中包含切片中单词的所有单词

Go
拉丁的传说 2023-07-04 09:49:42
我正在尝试进行主题提取,我所做的是从字符串中删除所有辅助词,我的伪代码是:topic := make(map[string]int)auxiliaryWord := []string{"hbs", "habis", "dan", "kapan", "bagaimana", "kita", "kamu", "warga", "pada", "paling", "ga", "gak", "enggak", "tidak", "bukan", "usai", "juga", "yg", "yang", "kpd", "kepada", "nya", "adanya", "jd", "jadi", "sih", "lah", "kan", "photo", "from", "by", "ini", "saja", "utk", "untuk", "lebih", "ternyata", "apa", "sok", "tau", "bagi", "eksis", "keluar", "kk", "kakak"}for chat := range chats {    arrWord := chat.Split(chat, " ")    for word := arrWord {        if word not in auxiliaryWord {            if topic[word] not exist {                topic[word] = 1            } else {                topic[word]+= 1            }        }    }}我的问题是,有没有更快的方法来做到这一点?
查看完整描述

1 回答

?
波斯汪

TA贡献1811条经验 获得超4个赞

只需预先计算 auxilaryWord 进行哈希,然后进行查找即可。


package main


import (

    "fmt"

    "strings"

)


var auxilaryWords = []string{"hbs", "habis", "dan", "kapan", "bagaimana", "kita", "kamu", "warga", "pada", "paling", "ga", "gak", "enggak", "tidak", "bukan", "usai", "juga", "yg", "yang", "kpd", "kepada", "nya", "adanya", "jd", "jadi", "sih", "lah", "kan", "photo", "from", "by", "ini", "saja", "utk", "untuk", "lebih", "ternyata", "apa", "sok", "tau", "bagi", "eksis", "keluar", "kk", "kakak"}

var auxHash = map[string]bool{}


func CountTopics(chatWords []string) map[string]int {

    result := map[string]int{}

    for _, word := range chatWords {

        if !auxHash[word] {

            result[word] += 1

        }

    }

    return result

}


func init() {

    for _, word := range auxilaryWords {

        auxHash[word] = true

    }

}


func main() {

    arrWord := strings.Split(`hai kakak habis makan apa`, " ")

    fmt.Println(CountTopics(arrWord))   

}

https://play.golang.org/p/Wr2gK_zizL0


查看完整回答
反对 回复 2023-07-04
  • 1 回答
  • 0 关注
  • 110 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信