找技术路线很头大啊,明天还要做一个技术分享(压力山大)...这篇论文的训练集是中国学生写的中文文章,虽然对我研究的托福雅思的英文议论文不同,但我想思路和技术方法可能是有一定借鉴作用的。
论文主要是通过探索整篇文章中句子与句子之间关系的内聚性来分析文章的篇章结构。通过这种方式能更好的识别Thesis、Main idea和Conclusion标签类别。论文将篇章结构的识别作为一个分类问题来看待,文章中的每个句子使用分类器(朴树贝叶斯、决策树和SVM等)独立分类,论文主要使用SVM模型和基于线性链的条件随机场模型(CRF)来对句子进行篇章结构标签分类。
1 基本特征:
- 位置特征
- 指示单词特征:in my opinion,in conclusion,should,hope等
- 非文本特征:单词的长度,段落句子个数,标点符号特征等
- 主题和提示信息特征:对每个句子提取与文章标题和提示信息的余弦相似性的特征
2 内聚链
这里主要挖掘关系与词汇的内聚特征,主要构建的是在文章所有句子范围内单词的身份链(identity chains)和词汇链(lexical chains)。
- 身份链(identity chains):通过挖掘每个句子中的人物名称,第一、二、三人称等特征,将同属一类身份的部分组成一个身份链;
- 词汇链(lexical chains):通过挖掘每个句子中不同词汇的重复,单词的同义表达等特征,将同属一类单词的部分组成一个词汇链。
3 全局链(global chains)与局部链(local chains)
基于第二部分的内聚链来构造一个句子链(Sentence Chains),一个句子链包含那些相似的身份链和词汇链。
局部链是那些只包含单一子主题的句子链,全局链那些只包含多个子主题的句子链。
图1 训练样本中全局链与局部链图
网格中的每个实体节点表示一个句子中包含来自内聚链的单词。
文章假设一个段落就是一个子主题,所以将那些跨越三个段落的句子链分类为全局链,只在一个段落中的句子链为局部链。
4 基于句子链的内聚特征:
- 链类型特征:global-identity, local-identity, global-lexical 和 local-lexical chains
- 全局标题特征:全局链中的某个句子如果包含题目中的关键字,那么可能将这条句子分类为thesis标签
- 相互作用特征:如果两个句子链中有超过1个共同句子,则认为两个句子链相互作用
- 结构特征:句子链覆盖句子或段落的最大数和平均数
使用条件随机场(CRF)模型对三个不同主题的六种篇章结构分类效果如下图所示:
图2 分类效果
我们可以发现添加了内聚特征的模型可以明显提升识别Main idea 和 Thesis类别标签的精确度。
点击查看更多内容
为 TA 点赞
评论
共同学习,写下你的评论
评论加载中...
作者其他优质文章
正在加载中
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦