为了账号安全,请及时绑定邮箱和手机立即绑定

Word2Vec简明教程:入门、原理及代码实现word2vec king queen man women-CSDN博客

标签:
杂七杂八

概述

词向量,作为将单词转化成数值向量的高效方法,是现代自然语言处理领域中不可或缺的工具。本文旨在为初学者提供关于词向量的全面介绍,从人格特征向量到余弦相似度计算,再到词向量的核心概念和实际应用,本文将逐一解析。通过简洁的数学公式和直观的代码实现,我们不仅能够理解词向量背后的原理,还能掌握从理论到实践的完整流程。本文将重点介绍词向量的原理、如何通过训练模型获得词的向量表示,以及如何运用这些表示进行语义相似度计算和语言模型构建。通过本文的学习,读者将能够深入理解词向量如何在自然语言处理任务中发挥关键作用,并具备将理论知识转化为代码实践的能力。

特征向量

人格的大五模式

人格的大五模式(Big Five),也被称为人格的海洋(OCEAN),包括五个维度:

  • 开放性:富含想象、审美、情感丰富、求异、创造、智能等特质
  • 责任心:具备胜任、公正、条理、尽职、成就、自律、谨慎、克制等特点
  • 外倾性:展现热情、社交、果断、活跃、冒险、乐观等特质
  • 宜人性:拥有信任、利他、直率、依从、谦虚、移情等特质
  • 神经质性:难以平衡焦虑、敌对、压抑、自我意识、冲动、脆弱等情绪,即不易保持情绪稳定

余弦相似度

计算人格特征向量的相似度可以使用余弦相似度公式:

[sim(a, b) = \frac{ab}{|\mathbf{a}| |\mathbf{b}|} = \frac{x_1x_2 + y_1y_2}{\sqrt{x_1^2 + y_1^2}\sqrt{x_2^2 + y_2^2}}]

对于[n]维向量(\mathbf{A}=[a_1, a_2, ..., a_n])和(\mathbf{B}=[b_1, b_2, ..., b_n]),相似度计算如下:

[sim(\mathbf{A}, \mathbf{B}) = \frac{\sum_{i=1}^{n}A_iBi}{\sqrt{\sum{i=1}^{n}Ai^2}\sqrt{\sum{i=1}^{n}B_i^2}}]

通过计算可以得出相似度范围在-1到1之间,值越接近1表示向量越相似。

词向量

词向量概念

词向量通过向量表示词的意义,将人对词的理解转化为机器可以处理的数值。

例子:King-Man + Woman = Queen

以King的词向量为例,想象其表示为:

[ [0.50451, 0.68607, -0.59517, -0.022801, 0.60046, -0.13498, -0.08813, 0.47377, -0.61798, -0.31012, -0.076666, 1.493, -0.034189, -0.98173, 0.68229, 0.81722, -0.51874, -0.31503, -0.55809, 0.66421, 0.1961, -0.13495, -0.11476, -0.30344, 0.41177, -2.223, -1.0756, -1.0783, -0.34354, 0.33505, 1.9927, -0.04234, -0.64319, 0.71125, 0.49159, 0.16754, 0.34344, -0.25663, -0.8523, 0.1661, 0.40102, 1.1685, -1.0137, -0.21585, -0.15155, 0.78321, -0.91241, -1.6106, -0.64426, -0.51042] ]

与Man和Woman向量相加,结果接近Queen的向量。

NNLM模型

神经网络语言模型(NNLM)是一种用于构建统计语言模型的框架,它通过神经网络学习词向量,为词提供连续的表示。基本思想如下:

  • Embedding层:将one-hot编码的词表映射到连续向量空间。
  • 前向神经网络:通过多层神经网络调整这些向量以预测序列的概率。

NNLM模型通过最小化交叉熵损失函数来训练模型参数,包括共享的嵌入矩阵和神经网络中的权重。

Word2Vec模型

简介

Word2Vec是Google团队在2013年发布的一套高效词向量学习方法,将词转化为向量,量化词之间的关系。它包含:

  • Skip-gram模型:预测中心词周围的上下文词。
  • CBow模型:预测上下文词的中心词。

Skip-gram详解

基本概念

Skip-gram模型基于跳过上下文来学习词的向量表示。关键思想是对给定的中心词生成背景词的概率进行建模。

训练过程

目标是最大化背景词生成的可能性,这可以通过计算上下文词和中心词之间的余弦相似度并进行softmax归一化来实现。

实践与应用

训练与参数设置

在训练Word2Vec模型时,需调整窗口大小和负采样参数。窗口大小决定上下文词的范围,负采样则用于增强学习的效率。

代码实现

使用Python和Gensim库可以轻松实现Word2Vec模型训练:

from gensim.models import Word2Vec

# 准备语料数据
sentences = [['first', 'sentence'], ['second', 'sentence'], ['third', 'sentence']]

# 训练模型
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)

模型验证与应用案例

训练后,可以通过模型查找词向量,探索词之间的相似性,实现语言理解、自然语言处理任务,如文本生成、语义相似性搜索等。通过具体的应用案例,可以展示如何利用Word2Vec来解决实际问题,例如情感分析、主题建模等。

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消