现在看这种类型的英文论文开始有点感觉了,大部分术语积累的差不多之后看论文确实相对刚开始看要快一些,一遍过下来也掌握的信息也比较多,如果你和我一样都在看英文论文的道路上挣扎,建议你看下这篇帖子的内容,如何看懂英文文献? 还是有些帮助的,也欢迎你留言,我们一起交流,共同进步。
本文《Identifying Argumentative Discourse Structures in Persuasive Essays》主要研究的是议论文中论证部分的篇章结构分析,研究工作分两部分,第一部分为议论文中论证性篇章结构类别识别,第二部分为在第一部分的论证类别识别的基础上对论证关系进行研究。论文将数据集中的文章句子的类别分为:主论点(major claim)、分论点(claim)、论据(premise)以及非论证部分(none),在主论点、分论点以及论据之间有两种论证关系:支持(support)与反对(attack)。数据集来自Stab和Gurevych在2014年编译的议论文语料库。表1表示的是语料库中各种类别的分布情况,语料库包含90个主论点(基本上是每篇文章包含一个主论点),429个分论点和1033个论据。
表1 数据集中类别分布情况
1 篇章结构类别识别
论文使用Weka数据挖掘软件中的分类器进行分类,使用DKPro框架中的Stanford POS-Tagger和Parser进行数据预处理,使用使DKPro-TC文本分类框架来提取论文句子的特征。
1.1 特征提取
1.1.1 结构特征
这部分主要提取的是篇章单元的词统计特征、位置特征以及标点符号特征。
词统计特征,Biran and Rambow在2011年发现论据的平均长度比其他句子要长,所以将篇章单元所覆盖句子中单词的数量加入到特征集中,除此之外,特征集还包含:当前句子的前一个和后一个篇章单元所包含词的数量,篇章单元的覆盖句子的词占篇章单元单词的比例。
位置特征,四个Boolean特征:篇章单元是否出现在文章的介绍(introduction)或结论(conclusion)中,是否出现在某一段的第一句或最后一句;一个数值特征:篇章单元中所覆盖句子在文章中的位置,主论点经常出现在文章的介绍(introduction)或结论(conclusion)中,段落也经常是以论点作为开始或结束。本论文认为这个特征能够很好的预测(主/分)论点。
标点符号特征:篇章单元所覆盖句子中的标点符号数量;当前句子的前一个和后一个篇章单元的标点符号的数量;句子是否以问号结束。
1.1.2 词汇特征
这部分的特征主要使用Stanford POS-Tagger来进行预处理阶段的词性标注,词汇特征主要包括:动词(verbs)、副词(adverbs)和情态动词(modals)
动词和副词在识别篇章单元上有重要的作用,比如,某些动词(believe、think、agree等)标志着一个主论点的出现,某些副词(also、often、really等)就可能是论据的表达方式,某些情态动词(should、could等)通常用来预示分论点的出现。
1.1.3 句法特征
这部分主要提取:篇章单元的每个句子中包含子从句的数量特征;分析树(parse tree)的深度;分析树中的产生式(production rules),NP、VP、PP是名词、动词、介词短语(短语级别);N、V、P分别是名词、动词、介词;每个篇章单元中句子的主要动词的时态,论据一般使用过去时,而论点一般使用现在时。
1.1.4 指示词特征
论点经常有这些指示词:therefore、thus、consequently等引出,然而论据可能包含这些词:because、reason、furthermore等。本论文使用Penn Discourse Treebank 2.0 Annotation Manual来收集类似上面指示词,剔除掉与识别论证结构无关的指示词,最终收集到55个指示词。
除此之外还定义了5个Boolean特征来表示是否包含这五个第一人称:I,me,my,mine,myself。本论文认为这些特征与主论点有很强的关联性,因为这些词的出现常常表达了作者的个人立场。
1.1.5 上下文特征
论文认为一个论点的出现,后面往往跟着有论据。所以会从篇章单位的上下句子提取相关特征来表述上下文特征。
1.2 篇章单元分类
本论文使用SVM、贝叶斯、C4.5决策树以及随机森林四种分类方法,使用信息增益(Information Gain)来判断某些特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要,也就是对一个特征而言,分类系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量,信息量向正方向增长越大则表明该特征越能影响分类系统的效果。以信息增益为依据选取前100个特征。结果表明,使用SVM分类方法效果最好,虽然贝叶斯方法的准确度比SVM的低,但效率更高。SVM分类结果对比表如表2所示:
表2 SVM分类结果对比表
不同特征对篇章单元的识别结果的影响如表3所示:
表3 不同特征对篇章单元的识别结果影响对比表
1.3 结果分析
有趣的是指示词特征对识别非论证部分(none)并没有用,但在识别主论点(major claim)、分论点(claim)、论据(premise)上表现良好,一个主要的原因可能是指示词并不是对篇章单元的每个句子产生作用,有些指示词具有一词多义,比如since,可能表示时间的“自从”,也可能表示的是因果的“因为”。
分类系统对识别论证部分和非论证部分有很好的效果,但在识别主论点(major claims)与分论点(claims)上的效果一般,结果矩阵如表4所示:
表4 结果分析矩阵
MC=Major Claim,Cl=Claim,Pr=Premise,No=None,横轴表示实际类别,纵轴表示分类预测的类别。
从上面的结果分析矩阵可以得出,总共有193个分论点(Claims)被错误分类为论据(Premise)。论文对这个现象的解释是:许多的分论点出现在第一段,且含有first(ly)、second(ly)等指示单词,这可能表示的是分论点对主论点的支持或解释,但往往会被分类器认为是主论点的论据。为解决这个问题,论文作者提出了一个可能的解决方法,即定义指示单词的位置特征或消除指示单词特征作用。
有些包含一个完整的句子且不包含指示单词的分论点也可能被错误分类,比如,“Competition helps in improvement and evolution”作为一个分论点可能被错误分类为论据。实际上,如果不知道作者的写作含义,可能连人也分不清是什么类别,解决这类问题的方法是,特征集中加入更多复杂的上下文特征。
2 论证关系识别
2.1 什么是论证关系?
“(1) Museums and art galleries provide a better understanding about arts than Internet. (2) In most museums and art galleries, detailed descriptions in terms of the background, history and author are provided. (3) Seeing an artwork online is not the same as watching it with our own eyes, as (4) the picture online does not show the texture or three-dimensional structure of the art, which is important to study.”
在上面这段英文中,加粗部分(1)为一个论点(Claims),斜体部分(2,3,4)为论据(Premise),论据(2)和(3)支持/加强论点(1),而论据(4)支持/加强论据(3),所以这段英文中有3对支持/加强(support)论证关系(2,1)、(3,1)和(4,3)。
本论文将论证关系分为Support和Non-support,且不考虑分论点与主论点之间的论证关系,因为这是唯一个跨越段落的论证关系,在6330对(pair)论证关系中,Support和Non-support分布情况如下表所示:
表5 Support和Non-support分布情况表
2.2 特征提取
2.2.1 结构特征
三个基于词统计特征:源单元的词数量;目标单元的词数量;源单元和目标单元的词数量绝对差;
三个基于标点符号统计特征:源单元的标点符号数量;目标单元的标点符号数量;源单元和目标单元的标点符号数量绝对差;
九个基于位置的结构特征:源单元与目标单元所覆盖句子在文章中的位置(2);源单元与目标单元所覆盖句子是否处于段落的开始或结尾(4);目标单元是否出现在源单元之前(1);源单元与目标单元所覆盖句子之间的距离(1);源单元与目标单元是否在同一个句子中(1)。
2.2.2 词汇特征
词汇特征主要包括单词对(word pairs)、第一个单词、情态动词、两个篇章单元相同术语的数量。论文认为篇章单元的第一个单词包含重要的信息。
2.2.3 句法特征
同篇章结构类别识别的句法特征。
2.2.4 指示词特征
同篇章结构类别识别的指示词特征。
2.2.5 篇章单元类型特征
篇章单元类型(major claim,claim,premise)特征对两个篇章单元的论证关系识别有重要指示作用。
2.3 分类结果分析
同样是SVM的分类效果最好。
表6 论证关系分类效果表
表7 不同特征对分类效果的影响表
共同学习,写下你的评论
评论加载中...
作者其他优质文章