为了账号安全,请及时绑定邮箱和手机立即绑定

中文句子的词分割算法:MaxMatch

标签:
算法

今天阅读的时候,发现了一个分割句子中词语的算法:MaxMatch,这个算法在中文应用中效果很好。

这是一个贪心算法,在指定的字典(dictionary)中查找词汇并进行句子的分割。

下面是一个应用本算法的例子:

Input: 他特别喜欢北京烤鸭

Output: 他 特别 喜欢 北京烤鸭

算法的伪代码如下:



这个算法在中文的应用中比英文好很多,因为中文词汇比英文短。


为了检验词汇分割的效果,我们可以使用词语错误率(word error rate)来衡量。

上述的算法是传统的算法。目前准确率最高的中文词汇分割算法是通过监督机器学习(supervised machine learning)训练的统计序列模型(statistical sequence model),这个我们以后再写文章详细讨论。

原文出处

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消