为了账号安全,请及时绑定邮箱和手机立即绑定

如何将斯坦福NLP 工具(POSTagger 和 Parser)与已标记化的文件一起使用?

如何将斯坦福NLP 工具(POSTagger 和 Parser)与已标记化的文件一起使用?

富国沪深 2023-07-05 17:55:50
我有一个标记化文件,我想使用斯坦福自然语言处理(StanfordNLP)用 POS 和依赖解析标签来注释它。我正在使用具有以下配置的 Python 脚本:config = {'processors': 'pos,lemma,depparse','lang': 'de','pos_model_path': './de_gsd_models/de_gsd_tagger.pt','pos_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt','lemma_model_path': './de_gsd_models/de_gsd_lemmatizer.pt','depparse_model_path': './de_gsd_models/de_gsd_parser.pt','depparse_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt}'nlp = stanfordnlp.Pipeline(**config)doc = nlp(text)但是,我收到以下消息:缺失:{'tokenize'} 为此管道提供的处理器列表无效。请确保每个处理器都满足所有先决条件。是否可以使用 Python 脚本跳过标记化步骤?提前致谢!
查看完整描述

1 回答

?
函数式编程

TA贡献1807条经验 获得超9个赞

您需要包含处理器并包含设置为 的tokenize属性。这将假设文本在空格上被标记,并且句子被换行符分割。您还可以传递字符串列表的列表,每个列表代表一个句子,条目是标记。tokenize_pretokenizedTrue

查看完整回答
反对 回复 2023-07-05
  • 1 回答
  • 0 关注
  • 105 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信