我有一个标记化文件,我想使用斯坦福自然语言处理(StanfordNLP)用 POS 和依赖解析标签来注释它。我正在使用具有以下配置的 Python 脚本:config = {'processors': 'pos,lemma,depparse','lang': 'de','pos_model_path': './de_gsd_models/de_gsd_tagger.pt','pos_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt','lemma_model_path': './de_gsd_models/de_gsd_lemmatizer.pt','depparse_model_path': './de_gsd_models/de_gsd_parser.pt','depparse_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt}'nlp = stanfordnlp.Pipeline(**config)doc = nlp(text)但是,我收到以下消息:缺失:{'tokenize'} 为此管道提供的处理器列表无效。请确保每个处理器都满足所有先决条件。是否可以使用 Python 脚本跳过标记化步骤?提前致谢!
1 回答
函数式编程
TA贡献1807条经验 获得超9个赞
您需要包含处理器并包含设置为 的tokenize
属性。这将假设文本在空格上被标记,并且句子被换行符分割。您还可以传递字符串列表的列表,每个列表代表一个句子,条目是标记。tokenize_pretokenized
True
添加回答
举报
0/150
提交
取消