首页手记 Word2Vec简明教程：入门、原理及代码实现word...

Word2Vec简明教程：入门、原理及代码实现word2vec king queen man women-CSDN博客

标签：

杂七杂八

概述

词向量，作为将单词转化成数值向量的高效方法，是现代自然语言处理领域中不可或缺的工具。本文旨在为初学者提供关于词向量的全面介绍，从人格特征向量到余弦相似度计算，再到词向量的核心概念和实际应用，本文将逐一解析。通过简洁的数学公式和直观的代码实现，我们不仅能够理解词向量背后的原理，还能掌握从理论到实践的完整流程。本文将重点介绍词向量的原理、如何通过训练模型获得词的向量表示，以及如何运用这些表示进行语义相似度计算和语言模型构建。通过本文的学习，读者将能够深入理解词向量如何在自然语言处理任务中发挥关键作用，并具备将理论知识转化为代码实践的能力。

特征向量

人格的大五模式

人格的大五模式（Big Five），也被称为人格的海洋（OCEAN），包括五个维度：

开放性：富含想象、审美、情感丰富、求异、创造、智能等特质
责任心：具备胜任、公正、条理、尽职、成就、自律、谨慎、克制等特点
外倾性：展现热情、社交、果断、活跃、冒险、乐观等特质
宜人性：拥有信任、利他、直率、依从、谦虚、移情等特质
神经质性：难以平衡焦虑、敌对、压抑、自我意识、冲动、脆弱等情绪，即不易保持情绪稳定

余弦相似度

计算人格特征向量的相似度可以使用余弦相似度公式：

[sim(a, b) = \frac{ab}{|\mathbf{a}| |\mathbf{b}|} = \frac{x_1x_2 + y_1y_2}{\sqrt{x_1^2 + y_1^2}\sqrt{x_2^2 + y_2^2}}]

对于[n]维向量(\mathbf{A}=[a_1, a_2, ..., a_n])和(\mathbf{B}=[b_1, b_2, ..., b_n])，相似度计算如下：

[sim(\mathbf{A}, \mathbf{B}) = \frac{\sum_{i=1}^{n}A_iBi}{\sqrt{\sum{i=1}^{n}Ai^2}\sqrt{\sum{i=1}^{n}B_i^2}}]

通过计算可以得出相似度范围在-1到1之间，值越接近1表示向量越相似。

词向量

词向量概念

词向量通过向量表示词的意义，将人对词的理解转化为机器可以处理的数值。

例子：King-Man + Woman = Queen

以King的词向量为例，想象其表示为：

[ [0.50451, 0.68607, -0.59517, -0.022801, 0.60046, -0.13498, -0.08813, 0.47377, -0.61798, -0.31012, -0.076666, 1.493, -0.034189, -0.98173, 0.68229, 0.81722, -0.51874, -0.31503, -0.55809, 0.66421, 0.1961, -0.13495, -0.11476, -0.30344, 0.41177, -2.223, -1.0756, -1.0783, -0.34354, 0.33505, 1.9927, -0.04234, -0.64319, 0.71125, 0.49159, 0.16754, 0.34344, -0.25663, -0.8523, 0.1661, 0.40102, 1.1685, -1.0137, -0.21585, -0.15155, 0.78321, -0.91241, -1.6106, -0.64426, -0.51042] ]

与Man和Woman向量相加，结果接近Queen的向量。

NNLM模型

神经网络语言模型（NNLM）是一种用于构建统计语言模型的框架，它通过神经网络学习词向量，为词提供连续的表示。基本思想如下：

Embedding层：将one-hot编码的词表映射到连续向量空间。
前向神经网络：通过多层神经网络调整这些向量以预测序列的概率。

NNLM模型通过最小化交叉熵损失函数来训练模型参数，包括共享的嵌入矩阵和神经网络中的权重。

Word2Vec模型

简介

Word2Vec是Google团队在2013年发布的一套高效词向量学习方法，将词转化为向量，量化词之间的关系。它包含：

Skip-gram模型：预测中心词周围的上下文词。
CBow模型：预测上下文词的中心词。

Skip-gram详解

基本概念

Skip-gram模型基于跳过上下文来学习词的向量表示。关键思想是对给定的中心词生成背景词的概率进行建模。

训练过程

目标是最大化背景词生成的可能性，这可以通过计算上下文词和中心词之间的余弦相似度并进行softmax归一化来实现。

实践与应用

训练与参数设置

在训练Word2Vec模型时，需调整窗口大小和负采样参数。窗口大小决定上下文词的范围，负采样则用于增强学习的效率。

代码实现

使用Python和Gensim库可以轻松实现Word2Vec模型训练：

from gensim.models import Word2Vec

# 准备语料数据
sentences = [['first', 'sentence'], ['second', 'sentence'], ['third', 'sentence']]

# 训练模型
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)

模型验证与应用案例

训练后，可以通过模型查找词向量，探索词之间的相似性，实现语言理解、自然语言处理任务，如文本生成、语义相似性搜索等。通过具体的应用案例，可以展示如何利用Word2Vec来解决实际问题，例如情感分析、主题建模等。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

函数式编程

手记
篇

粉丝

14

获赞与收藏

30

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 30583 343

网络编程入门教程

20个小节 12561 237

Pandas 入门教程

25个小节 18499 337

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空