我想确切地知道在这个标记器中使用指定的模式对文本做了什么:from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'[a-zA-Z]\w+\'?\w*')text_token = text.apply(tokenizer.tokenize)其中“text”是一个熊猫系列,每一行都是一个句子。我特别想了解r'[a-zA-Z]\w+\'?\w '* 部分。详细信息(每个组件的解释)将不胜感激。
添加回答
举报
0/150
提交
取消