首页手记词向量：构建语言理解的基石

词向量：构建语言理解的基石

标签：

杂七杂八

在自然语言处理领域，词向量是实现高效文本分析的关键。它们通过将词汇转换为实数向量，捕捉语言中的语义关系与结构。本文通过多层次的指导，从词向量的训练、应用到可视化，全面覆盖包括藏文处理在内的实践方法。借助于gensim库，不仅能够实现中文和英文的文本处理，还能妥善处理复杂语言如藏文，确保语言细节的精准捕捉。

Word2Vec词向量训练、使用及可视化操作【入门教程（包含藏文处理方法）】

前言

在自然语言处理(NLP)领域中，词向量（Word Embedding）是实现大量任务的基础。它们将单词转换为实数向量，使得算法能更容易理解语言数据的内在结构。本教程将指导你从词向量的训练，使用到可视化，包括对藏文的特殊处理方法。

Word2Vec词向量训练

数据输入格式

为了训练Word2Vec模型，数据输入需要遵循特定的格式。对于中文和英文，通常使用分词工具如jieba来处理文本。对于藏文，推荐使用SentencePiece进行更精细的切割，或是将其视为一个词级别的任务。每行存储一个文本片段，例如：

这是 第一个 文本。
这是 第二个 文本。

词向量训练代码示例

from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence

# 假设数据保存在名为 'data.txt' 的文件中
model = Word2Vec(
    LineSentence('data.txt'),
    sg=0,  # CBOW模型
    size=100,  # 向量维度
    window=3,  # 上下文窗口大小
    min_count=1,  # 忽略频率低于此值的词
    workers=8  # 使用的线程数
)
model.wv.save_word2vec_format('data.vector', binary=False)
model.save('test.model')

词向量使用

训练完成后，你可以通过模型加载词向量或直接加载保存的词向量。以下是两个使用方法：

import gensim

# 通过模型加载词向量
model = gensim.models.Word2Vec.load('test.model')
print(model.wv.index2word)
print(len(model.wv.index2word))
print(model.wv['提供'])
print(model.most_similar('提供', topn=1))

# 通过词向量文件加载
vector = gensim.models.KeyedVectors.load_word2vec_format('data.vector')
print(vector['提供'])

Word向量可视化

为了直观理解词向量，可以使用TSNE（t-Distributed Stochastic Neighbor Embedding）进行降维可视化。以下代码示例展示如何使用TSNE和matplotlib来绘制词向量：

from sklearn.manifold import TSNE
import gensim
import matplotlib.pyplot as plt

def tsne_plot(model, words_num):
    labels = []
    tokens = []
    for word in model.wv.vocab:
        tokens.append(model[word])
        labels.append(word)
    
    tsne_model = TSNE(perplexity=30, n_components=2, init='pca', n_iter=1000, random_state=23)
    new_values = tsne_model.fit_transform(tokens)
    
    x = []
    y = []
    for value in new_values:
        x.append(value[0])
        y.append(value[1])
    
    plt.figure(figsize=(10, 10))
    for i in range(words_num):
        plt.scatter(x[i], y[i])
        plt.annotate(labels[i],
                     xy=(x[i], y[i]),
                     xytext=(5, 2),
                     textcoords='offset points',
                     ha='right',
                     va='bottom')
        
    plt.show()

if __name__ == '__main__':
    model = gensim.models.Word2Vec.load('test.model')
    print(f'There are {len(model.wv.index2word)} words in vocab')
    word_num = int(input('please input how many words you want to plot:'))
    tsne_plot(model, word_num)

藏文处理方法

对于藏文，使用SentencePiece进行分词，可以更精确地捕捉语言的细微差别：

import sentencepiece as spm

# 加载或训练SentencePiece模型
spm_model = spm.SentencePieceProcessor()
# 加载模型文件
spm_model.Load('model.spm')
texts = ['这里是藏文文本', '这是另一个藏文文本。']
tokens = spm_model.EncodeAsPieces(texts)
for text in texts:
    print(text, '->', tokens)

总结与参考资料

完成词向量的学习后，你将具备处理自然语言数据的基础能力。通过训练、使用和可视化词向量，你可以深入理解文本中的语义关系，为后续的NLP项目打下坚实的基础。运用gensim库进行词向量操作，功能强大且易于上手。此外，慕课网提供丰富的NLP学习资源，帮助你进一步深造。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

波斯汪

手记
篇

粉丝

67

获赞与收藏

430

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 30828 345

网络编程入门教程

20个小节 12721 239

Pandas 入门教程

25个小节 18601 342

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空