为了账号安全,请及时绑定邮箱和手机立即绑定

如何添加已知单词标记器 keras python?

如何添加已知单词标记器 keras python?

翻阅古今 2021-09-14 20:41:20
我想使用带有印度尼西亚语的 keras 将文本转换为序列。但 keras 标记器只检测已知单词。如何在keras中添加已知单词?或者我有什么解决方案可以将文本转换为序列?from keras.preprocessing.text import Tokenizertokenizer = Tokenizer(num_words=n_most_common_words, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', lower=True)tokenizer.fit_on_texts(concated['TITLE'].values)txt = ["bisnis di indonesia sangat maju"]seq = list(tokenizer.texts_to_sequences_generator(txt))如果我使用印度尼西亚语,“seq”变量会产生空数组,如果我使用英文单词,它会完美地工作。如何将 keras 用于不同的语言?或者无论如何要向keras添加一些已知词?
查看完整描述

1 回答

?
手掌心

TA贡献1942条经验 获得超3个赞

Keras不知道任何语言或文字。可以使用fit_on_textsorfit_on_sequences方法创建词汇表。

我猜您是fit在某些英文文本(即concated['TITLE'].values)上使用分词器。结果,内部词汇只包含英语单词(没有印尼语单词)。这解释了为什么seq如果txt只包含非英语单词会是空的。

此外,您可以查看源代码Tokenizer


查看完整回答
反对 回复 2021-09-14
  • 1 回答
  • 0 关注
  • 175 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号