Xiao Ding, Bing Qin, Ting Liu* Research Center for Social Computing and Information Retrieval Harbin Institute of Technology, China {xding, qinb, tliu}@ir.hit.edu.cn
传统的 事件 抽取主要关注事件类型识别和基于事先标注的事件参与者抽取,但是不同的领域有着不同的事件类型范例。本文提出了一种通过聚类事件触发器来构建事件类型范例的新方法。
大多数方法需要预先指定的事件类型作为它们的先验知识。例如,ACE将事件定义为涉及参与者的特定事件,它注释了事件的8种类型和33种子类型(LDC,2005)。
大多关注关系抽取,很少关注事件抽取。
李(2010)提出了一种与领域无关的新颖事件发现方法。他们利用基于句子对齐的双语平行文本的跨语言聚类算法来发现事件触发聚类。他们的动机是为一个新的领域发现新的事件,而不是从头开始建立一个新的事件类型范例。所以它把特定领域的事件触发器作为输入。然而,为新域注释触发器也是一项成本高昂的任务。
最清楚地表达事件发生的词,以及我们的主要观察:触发器是表示事件的最重要的词汇单位。一组具有相似含义或用法的触发器代表相同的事件类型。事件类型能够被基于触发器聚类发现。

如图1所示,我们的系统有三个主要组件:触发器提取器、触发器过滤器和触发器 集群 。系统的输入是原始语料库,如ACE语料库、财经新闻语料库和音乐新闻语料库,输出是事件类型范式,如表2、表3和表4所示。



为了准确地提取事件触发器,我们采用了基于谓词和其参数之间的直接句法关系的谓词语义模型(Yangarder等人,2000)。
我们利用HIT(哈尔滨工业大学)依存句法分析工具(车等,2009)提取了谓词-论元模型的句法关系。
基于谓词-论元模型,提出了一种触发器提取算法。细节如图2所示。

SBV关系,代表主谓结构,表示头部是谓语动词,从属是谓语动词的主语;代表动宾结构的VOB依存关系是指头部是动词,依存者是动词的宾语;
因为VSBV = VVOB = Vt =出生(born)在这种情况下,基于谓词-论元模型,单词“出生”应被提取作为候选事件触发器。
虽然我们获得了一些有用的候选触发器,但是某些无意义的候选触发器也会出现在触发器提取器的结果中。因此,我们引入了一个触发过滤器,它使用启发式规则和排序算法来过滤掉这些信息量较少的候选。这些规则的应用顺序如下:
我们提出了基于触发聚类的事件类型发现(ETD)算法,该算法不需要预先给出聚类数。算法如图3所示。对于的两个触发器Vi和Vj,聚类中的相似度函数Sim(Vi,Vj)是使用知网提供的语义信息计算的
其中,Ns表示Vi和Vj的DEFs(知网中的概念定义)中相同义素的数量;Ni和Nj表示Vi和Vj的DEFs中的义素数。知网用义素解读概念。义素被认为是意义的基本单位。比如“纸”可以看作一个概念,它的义素有“白”、“薄”、“软”、“易燃”等。
多义动词是自然语言处理中的一个主要问题,如“开枪”和“解雇经理”,其中“解雇”有两种不同的含义。最先进的动词词义消歧方法(Wagner等人,2009)强调,同意其选择偏好的动词属于一个共同的语义类别。比如“逮捕嫌疑人”、“抓获嫌疑人”。基于这种方法,我们提出了一个谓词-论元聚类模型,该模型根据动词的次分类和选择偏好对动词进行分组。ETD只考虑动词次范畴化,而聚合范畴化涉及动词论元 元组 ,如<炸弹,美军,武器仓库>,其中“美军”和“武器仓库”是触发词“炸弹”的主语词和宾语词。除了相似性度量之外,图4所示的PAC的聚类过程与ETD相同。PAC通过以下函数计算所有动词参数元组之间的相似性:


其中,Ss和 Os 表示主语和主语、宾语和宾语的定义中相同义素的数量;Si和Sj分别表示主语和主语的DEFs中的义素个数;Oi和Oj分别表示Obji和Objj的DEFs中的义素数量。
一组触发器根据它们的语义距离聚合成一个触发器簇,我们将每个触发器簇看作一种事件类型。然后所有这些事件类型最终被用来构建一个事件类型范例。

我们采用F-测度(F)和Purity (Halkidi等人,2001)来确定事件簇的正确性:

其中I是黄金标准事件触发簇,r是与I具有最相同触发的事件触发簇,所以ni是簇I中的触发数目;nr是集群r中触发器的数量;n是所有触发器的数量;对于每个聚类,我们首先计算p(i,r),r(i,r)和f(i,r),然后我们得到整个聚类结果的度量和纯度。请注意,评估是基于单词实例,而不是单词类型。
免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删