为了账号安全,请及时绑定邮箱和手机立即绑定

我是否缺少 spaCy 词形还原中的预处理功能?

我是否缺少 spaCy 词形还原中的预处理功能?

翻阅古今 2023-10-06 11:00:03
我正在尝试使用 spacy 获取文档中所有标记的引理(即 token.lemma_)。代码:sentence = 'I'm looking for all of the lemmas. Please help me find them!' nlp = spacy.load('en', disable=['parser', 'NER]) doc = nlp(sentence) tokens = [tokens.lemma_ for token in doc]预期结果:['look', 'lemma', 'help', 'find']实际结果:[-PRON-, 'be', 'look', 'all', 'of', 'the', 'lemma', '.', 'please', 'help', '-PRON-', 'find', '-PRON', '!']我是否缺少 spacy 中的某种预处理功能,或者我是否必须单独进行预处理?我希望在词形还原之前删除所有标点符号和停用词。
查看完整描述

1 回答

?
人到中年有点甜

TA贡献1895条经验 获得超7个赞

您可以使用

>>> [token.lemma_ for token in doc if not token.is_stop and not token.is_punct]
['look', 'lemma', 'help', 'find']

添加了以下部分:

  • if not token.is_stop- 如果标记是停用词

  • and- 和

  • not token.is_punct - 如果标记是标点符号,则省略它们。


查看完整回答
反对 回复 2023-10-06
  • 1 回答
  • 0 关注
  • 84 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信