首页手记中文分词常用方法简述

中文分词常用方法简述

标签：

深度学习算法

中文分词

就是将一句话分解成一个词一个词，英文中可以用空格来做，而中文需要用一些技术来处理。

三类分词算法：

1. 基于字符串匹配：

将汉字串与词典中的词进行匹配，如果在词典中找到某个字符串，则识别出一个词。

优点，速度快，都是O(n)时间复杂度，实现简单。
缺点，对歧义和未登录词处理不好。

此类型中常用的几种分词方法有：

1. 正向最大匹配法：
假设词典中最大词条所含的汉字个数为n个，取待处理字符串的前n个字作为匹配字段。若词典中含有该词，则匹配成功，分出该词，然后从被比较字符串的n+1处开始再取n个字组成的字段重新在词典中匹配；如果没有匹配成功，则将这n个字组成的字段的最后一位剔除，用剩下的n一1个字组成的字段在词典中进行匹配，如此进行下去，直到切分成功为止。（链接：http://www.jianshu.com/p/e978053b0b95）
2. 逆向最大匹配法：
与正向的区别在于如果匹配不成功则减去最前面的一个字。
3. 最少切分
使每一句中切出的词数最少。

2. 基于理解：

通常包括三个部分：分词（用来获得有关词）、句法语义（利用句法和语义信息来对分词歧义进行判断）、总控。

3. 基于统计：

对语料中相邻共现的各个字的组合的频度进行统计，将概率最大的分词结果作为最终结果。常见的模型有HMM和CRF。

优点，能很好处理歧义和未登录词问题。
缺点，需要大量的人工标注数据，以及较慢的分词速度。

部分分词工具：

中科院计算所NLPIR http://ictclas.nlpir.org/nlpir/
ansj分词器 https://github.com/NLPchina/ansj_seg
哈工大的LTP https://github.com/HIT-SCIR/ltp
清华大学THULAC https://github.com/thunlp/THULAC
斯坦福分词器，Java实现的CRF算法。 https://nlp.stanford.edu/software/segmenter.shtml
Hanlp分词器，求解的是最短路径。 https://github.com/hankcs/HanLP
结巴分词，基于前缀词典，生成句子中所有可能成词所构成的有向无环图 (DAG)，采用动态规划查找最大概率路径, 找出基于词频的最大切分组合，对于未登录词，采用了 HMM 模型，使用 Viterbi 算法。 https://github.com/yanyiwu/cppjieba
KCWS分词器(字嵌入+Bi-LSTM+CRF)，本质上是序列标注。 https://github.com/koth/kcws
ZPar https://github.com/frcchang/zpar/releases
IKAnalyzer https://github.com/wks/ik-analyzer

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

Alice嘟嘟

手记
篇

粉丝

75

获赞与收藏

280

关注作者，订阅最新文章

阅读免费教程

Python 算法入门教程

15个小节 30428 1173

算法入门教程

15个小节 33675 712

后端通用面试教程

41个小节 32920 372

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空