我有大约 138,000 条用户反馈记录,我想对其进行分析,以了解用户最常说的话的大致模式。每一个的评分都在 1-5 星之间,所以我不需要做任何类型的情感分析。我最感兴趣的是将数据集分成 >=4 颗星,看看我们在哪些方面做得很好,以及 <= 3 颗星,看看我们需要改进哪些地方。我遇到的一个关键问题是我希望看到很多 n 元语法。其中一些我知道,比如“HOV 车道”、“拼车车道”、“绕道时间”、“让开”等。但我也想以编程方式检测常见的二元组和三元组。我一直在玩Spacy,但它似乎没有任何能力在语料库级别上进行分析,只能在文档级别上进行分析。理想情况下,我的管道看起来像这样(我认为):将已知 n 元语法列表导入到分词器中将每个字符串处理为标记化文档,删除标点符号、停用词等,同时在标记化期间尊重已知的 n 元语法(即“HOV Lane”应该是单个名词标记)找出我错过的语料库中最常见的二元组和三元组使用找到的 n 元模型重新标记按评级划分(>=4 和 <=3)查找语料库中每个数据分割的最常见主题我似乎找不到一个工具,甚至是一组工具,可以让我在这里做我想做的事情。我是否以某种错误的方式处理这个问题?任何有关如何开始的指示将不胜感激!
1 回答
largeQ
TA贡献2039条经验 获得超7个赞
Bingo 为您的问题提供最先进的结果!
它被称为——零短期学习。最先进的 NLP 模型,用于无需注释数据的文本分类。
让我知道它是否适合您或有任何其他帮助。
子衿沉夜
TA贡献1828条经验 获得超3个赞
VADER工具非常适合情感分析和基于 NLP 的应用程序。
我认为建议的工作流程适合本案例研究。与您的特征提取密切合作,因为它非常重要。大多数时候,三元组对于这些用例来说是有意义的。
使用Spacy将是一个更好的决定,因为 SpaCy 基于规则的匹配引擎和组件不仅可以帮助您找到正在搜索的术语和句子,而且还允许您访问文本内的标记及其与正则表达式相比的关系。
添加回答
举报
0/150
提交
取消