许可优化
许可优化
产品
产品
解决方案
解决方案
服务支持
服务支持
关于
关于
软件库
当前位置:服务支持 >  软件文章 >  基于触发聚类构建中文事件类型范式(Building Chinese Event Type Paradigm Based on Trigger Clustering)

基于触发聚类构建中文事件类型范式(Building Chinese Event Type Paradigm Based on Trigger Clustering)

阅读数 4
点赞 0
article_banner

Building Chinese Event Type Paradigm Based on Trigger Clustering

Xiao Ding, Bing Qin, Ting Liu* Research Center for Social Computing and Information Retrieval Harbin Institute of Technology, China {xding, qinb, tliu}@ir.hit.edu.cn

1 精简总结

传统的 事件 抽取主要关注事件类型识别和基于事先标注的事件参与者抽取,但是不同的领域有着不同的事件类型范例。本文提出了一种通过聚类事件触发器来构建事件类型范例的新方法。

2 Introduction

2.1 问题

大多数方法需要预先指定的事件类型作为它们的先验知识。例如,ACE将事件定义为涉及参与者的特定事件,它注释了事件的8种类型和33种子类型(LDC,2005)。

大多关注关系抽取,很少关注事件抽取。

李(2010)提出了一种与领域无关的新颖事件发现方法。他们利用基于句子对齐的双语平行文本的跨语言聚类算法来发现事件触发聚类。他们的动机是为一个新的领域发现新的事件,而不是从头开始建立一个新的事件类型范例。所以它把特定领域的事件触发器作为输入。然而,为新域注释触发器也是一项成本高昂的任务。

2.2 触发器

最清楚地表达事件发生的词,以及我们的主要观察:触发器是表示事件的最重要的词汇单位。一组具有相似含义或用法的触发器代表相同的事件类型。事件类型能够被基于触发器聚类发现。

3 框架

在这里插入图片描述

如图1所示,我们的系统有三个主要组件:触发器提取器、触发器过滤器和触发器 集群  。系统的输入是原始语料库,如ACE语料库、财经新闻语料库和音乐新闻语料库,输出是事件类型范式,如表2、表3和表4所示。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.1 触发器提取器

为了准确地提取事件触发器,我们采用了基于谓词和其参数之间的直接句法关系的谓词语义模型(Yangarder等人,2000)。

我们利用HIT(哈尔滨工业大学)依存句法分析工具(车等,2009)提取了谓词-论元模型的句法关系。

基于谓词-论元模型,提出了一种触发器提取算法。细节如图2所示。
在这里插入图片描述

例子:

在这里插入图片描述

   SBV关系,代表主谓结构,表示头部是谓语动词,从属是谓语动词的主语;代表动宾结构的VOB依存关系是指头部是动词,依存者是动词的宾语;

因为VSBV = VVOB = Vt =出生(born)在这种情况下,基于谓词-论元模型,单词“出生”应被提取作为候选事件触发器。

3.2 触发器过滤

虽然我们获得了一些有用的候选触发器,但是某些无意义的候选触发器也会出现在触发器提取器的结果中。因此,我们引入了一个触发过滤器,它使用启发式规则和排序算法来过滤掉这些信息量较少的候选。这些规则的应用顺序如下:

  1. 细分动词 并非所有的动词术语都可以用作触发词。例如,系动词(如“is”)很少充当事件触发器。为了研究哪些类别的动词可以充当事件触发器,我们将汉语动词分为八个子类,如表1所示。
  2. 领域相关性排名 领域关联度是衡量触发器重要性的一个重要指标。根据候选触发在领域语料库和一般语料库中的分布,我们可以计算其领域关联度如下: 其中DR(Vt)为候选触发Vt的领域关联度,FreqD(Vt)为候选触发Vt在领域语料库(财经音乐新闻)中的频率计数,FreqG(Vt)为一般语料库(人民日报语料库)中的频率计数。我们将根据候选触发器的域关联度对其进行排名,并保留前Nt1个候选触发器。

3.3 触发聚类和事件类型范例构建

我们提出了基于触发聚类的事件类型发现(ETD)算法,该算法不需要预先给出聚类数。算法如图3所示。对于的两个触发器Vi和Vj,聚类中的相似度函数Sim(Vi,Vj)是使用知网提供的语义信息计算的
在这里插入图片描述

   其中,Ns表示Vi和Vj的DEFs(知网中的概念定义)中相同义素的数量;Ni和Nj表示Vi和Vj的DEFs中的义素数。知网用义素解读概念。义素被认为是意义的基本单位。比如“纸”可以看作一个概念,它的义素有“白”、“薄”、“软”、“易燃”等。

多义动词是自然语言处理中的一个主要问题,如“开枪”和“解雇经理”,其中“解雇”有两种不同的含义。最先进的动词词义消歧方法(Wagner等人,2009)强调,同意其选择偏好的动词属于一个共同的语义类别。比如“逮捕嫌疑人”、“抓获嫌疑人”。基于这种方法,我们提出了一个谓词-论元聚类模型,该模型根据动词的次分类和选择偏好对动词进行分组。ETD只考虑动词次范畴化,而聚合范畴化涉及动词论元 元组  ,如<炸弹,美军,武器仓库>,其中“美军”和“武器仓库”是触发词“炸弹”的主语词和宾语词。除了相似性度量之外,图4所示的PAC的聚类过程与ETD相同。PAC通过以下函数计算所有动词参数元组之间的相似性:

在这里插入图片描述在这里插入图片描述

   其中,Ss和 Os  表示主语和主语、宾语和宾语的定义中相同义素的数量;Si和Sj分别表示主语和主语的DEFs中的义素个数;Oi和Oj分别表示Obji和Objj的DEFs中的义素数量。

一组触发器根据它们的语义距离聚合成一个触发器簇,我们将每个触发器簇看作一种事件类型。然后所有这些事件类型最终被用来构建一个事件类型范例。

4 实验结果和分析

4.1 PAC和ETD

在这里插入图片描述

4.2 Evaluation Measure

我们采用F-测度(F)和Purity (Halkidi等人,2001)来确定事件簇的正确性:
在这里插入图片描述
在这里插入图片描述

   其中I是黄金标准事件触发簇,r是与I具有最相同触发的事件触发簇,所以ni是簇I中的触发数目;nr是集群r中触发器的数量;n是所有触发器的数量;对于每个聚类,我们首先计算p(i,r),r(i,r)和f(i,r),然后我们得到整个聚类结果的度量和纯度。请注意,评估是基于单词实例,而不是单词类型。


免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删

相关文章
技术文档
QR Code
微信扫一扫,欢迎咨询~
customer

online

联系我们
武汉格发信息技术有限公司
湖北省武汉市经开区科技园西路6号103孵化器
电话:155-2731-8020 座机:027-59821821
邮件:tanzw@gofarlic.com
Copyright © 2023 Gofarsoft Co.,Ltd. 保留所有权利
遇到许可问题?该如何解决!?
评估许可证实际采购量? 
不清楚软件许可证使用数据? 
收到软件厂商律师函!?  
想要少购买点许可证,节省费用? 
收到软件厂商侵权通告!?  
有正版license,但许可证不够用,需要新购? 
联系方式 board-phone 155-2731-8020
close1
预留信息,一起解决您的问题
* 姓名:
* 手机:

* 公司名称:

姓名不为空

姓名不为空

姓名不为空
手机不正确

手机不正确

手机不正确
公司不为空

公司不为空

公司不为空