为了账号安全,请及时绑定邮箱和手机立即绑定

【九月打卡】第九天 NLP基础和聊天机器人简介

学习课程:基于Pytorch热门深度学习框架 从零开发NLP聊天机器人

章节名称:第2章 聊天机器人综合介绍  && 第3章 NLP基础

讲师:胖虎

课程内容:


NLP

什么是NLP?

Natural Language Processing 自然语言处理

AI重要分支之一


主要范畴

https://img4.sycdn.imooc.com/6321ad6800012ef313830779.jpg

https://img4.sycdn.imooc.com/6321ad990001f3bb13810775.jpg


发展历程

https://img1.sycdn.imooc.com/6321ade2000112b713820775.jpg


研究难点

https://img3.sycdn.imooc.com/6321ae220001858013860782.jpg


涉及知识

词处理

分词、词性标注、实体识别、词义消除

语句处理

句法分析(Syntactic Analysis)、语义分析(Senmantic Analysis)、机器翻译、语音合成

篇章处理

自动文摘


统计语言模型

N-Gram统计模型

马尔科夫模型


NLTK(Natural Language Toolkit)库

诞生于20世纪80年代

网站:https://www.nltk.org/

NLTK能干什么

python上著名的自然语言处理

自带语料库,词性分类库

自带分类,分词等等功能

强大的社区支持


词性标注的分类方法

基于规则的词性标注

基于隐马尔可夫模型HMM的词性标注

基于转移的词性标注

基于转移与隐马尔可夫模型相结合的词性标注


分词

什么是分词?

把句子变成词

难点

https://img2.sycdn.imooc.com/6321b3b9000155cc13810773.jpg

https://img4.sycdn.imooc.com/6321b40b000119a013800781.jpg


分词的算法

基于词典的分词算法

https://img4.sycdn.imooc.com/6321b46b00013fa213850775.jpg

基于统计的分词算法


jieba

Python 中文分词组件


TF-IDF

https://img1.sycdn.imooc.com/6321b5580001055513830769.jpg

TF:Term Frequency,衡量一个term在文档中出现得有多频繁。

TF(t)=(t出现在文档中的次数)/(文档中的term总数)

IDF:InverseDocument Frequency,衡量一个term有多重要。

IDF(t)=log_e(文档总数/含有t的文档总数).

TF-IDF=TF*IDF

scikit-learn可以用TF-IDF

NLTK和jieba也可以用TF-IDF


智能问答

https://img2.sycdn.imooc.com/6321b7470001ded913780776.jpg

聊天机器人原理

https://img3.sycdn.imooc.com/6321b76c0001e7fc13830777.jpg

https://img2.sycdn.imooc.com/6321b7b1000107bb13710776.jpg

文本处理方法

https://img1.sycdn.imooc.com/6321b8470001869213780776.jpg

https://img3.sycdn.imooc.com/6321b861000109e313800776.jpg

https://img3.sycdn.imooc.com/6321b8a30001e30c13790773.jpg

https://img1.sycdn.imooc.com/6321b8b0000198c513840775.jpg



Stopwords

自动过滤掉某些无意义的常用停顿词

常用stopwords网址:https://www.ranks.nl/stopwords


Word2Vec

2013年 Mikolov 提出,就是用神经网络把词转成向量的模型

https://img1.sycdn.imooc.com/6321b9dd00011fd013750773.jpg

https://img3.sycdn.imooc.com/6321ba25000118c013110725.jpg

https://img1.sycdn.imooc.com/6321ba42000172ed12900735.jpg

https://img4.sycdn.imooc.com/6321ba610001256113500758.jpg

转换后的king和man后2个是一致的,说明他们是有关联关系的,而king与woman则离得比较远

https://img3.sycdn.imooc.com/6321bb570001312313870773.jpg

https://img1.sycdn.imooc.com/6321bb6900019dd613510773.jpg

https://img4.sycdn.imooc.com/6321bbad0001c31d13750774.jpg

https://img4.sycdn.imooc.com/6321bbdb00012dd613430774.jpg


学习收获:

对整个NLP发展及其目的有了一个全局的概览

了解分词、分词处理方法以及文本处理方法


打卡截图:

https://img2.sycdn.imooc.com/6321b14a000142ae13860779.jpg

https://img3.sycdn.imooc.com/6321b15d0001cab513860783.jpg

https://img3.sycdn.imooc.com/6321b17a0001216113820773.jpg


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消