为了账号安全,请及时绑定邮箱和手机立即绑定

如何使用我自己的语料库文本创建和拟合 vocab.bpe 文件?

如何使用我自己的语料库文本创建和拟合 vocab.bpe 文件?

波斯汪 2021-12-29 20:11:00
此问题适用于熟悉 GPT 或GPT2 OpenAI 模型的人。特别是与编码任务(字节对编码)。这是我的问题:我想知道如何创建自己的 vocab.bpe 文件。我有一个西班牙语语料库文本,我想用它来适应我自己的 bpe 编码器。我已经成功地使用python-bpe库创建了encoder.json,但我不知道如何获取 vocab.bpe 文件。我已经查看了gpt-2/src/encoder.py 中的代码,但是我没有找到任何提示。任何帮助或想法?
查看完整描述

2 回答

?
郎朗坤

TA贡献1921条经验 获得超9个赞

这里查看,您可以使用以下命令轻松创建相同的 vocab.bpe:

python learn_bpe -o ./vocab.bpe -i dataset.txt --symbols 50000


查看完整回答
反对 回复 2021-12-29
?
慕后森

TA贡献1802条经验 获得超5个赞

我没有使用过 GPT2,但是bpemb是一个非常好的开始子词嵌入的地方。根据自述文件

BPEmb 是 275 种语言的预训练子词嵌入的集合,基于字节对编码 (BPE) 并在维基百科上进行训练。它的预期用途是作为自然语言处理中神经模型的输入。

我在我的一个项目中使用了预训练嵌入和句子,结果证明它非常有用。


查看完整回答
反对 回复 2021-12-29
  • 2 回答
  • 0 关注
  • 411 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信