一种事件类型识别方法及装置制造方法及图纸

技术编号:13975190 阅读:155 留言:0更新日期:2016-11-11 09:33
本发明专利技术公开了一种事件类型识别方法及装置。该方法包括以下步骤:对训练集中所有文本进行分词、提取词性处理后训练词向量空间模型,提取文本的特征,将文本表示为特征向量;对于训练集进行事件类型聚类,训练带有类型聚类正则化项的神经网络模型;对于测试样本同样进行分析、提取词性处理,并利用已经训练好的词向量模型,得到特征表示;利用类型聚类正则化项的神经网络模型进行事件类别识别。借助于本发明专利技术的技术方案,能够利用同一群组中的类型共享信息来减轻标注数据不平衡带来的问题。

【技术实现步骤摘要】

本专利技术涉及计算机自然语言处理领域,特别涉及一种事件类型识别方法及装置
技术介绍
随着大数据时代的来临,特别是微博、微信、购物等移动应用的推广,文本数量呈爆炸式增长,如何从文本中挖掘出有价值的信息成为当前的一项重要研究课题。信息抽取是从大量无结构文本中识别和抽取人们感兴趣的信息,为进一步的话题检测与跟踪、信息检索、知识问答等应用打下基础。例如,从网站浏览记录中提取用户关心的话题,从新闻报道中提取爆炸、恐怖袭击等重大事件。美国著名机构TDT(Topic Detection and Tracking)针对新闻媒体等网络文本设立了专门的研究课题,目的是能够对新闻媒体中的热点话题进行持续地追踪和检索。TDT的主要任务包括:(a)文本数据信息过滤和提取;(b)热点事件发生时间抽取;(c)热点事件与话题挖掘。其中事件类型识别是TDT的关键技术。目前主流的事件类型识别方法采用了有监督学习方法。有监督学习方法利用标注好的实例集合来训练分类器。但是,现在可获取的已标注数据都是高度不平衡的。原因在于常见事件和不常见事件的出现情况有很大不同。举例来说,ACE2005将事件分为了8个大类,33个小类。表一表一显示了ACE2005语料中的已标注事件中最常见及最不常见事件的统计信息。最常出现的事件的出现次数比最不常见的事件的出现次数高了大约55(3187/57)倍。对于普通事件来说,比如攻击和运输,它们在现实生活中经常发生,语料中也有数以百计的此类标注实例。然而,对于那些不常见的事件,语料中仅仅只有几条标注的实例。像引渡、假释和宣告无罪这些类别的事件,在语料库中只有不到10条标注实例。显然,在这样一个小规模的训练数据集上很难得到一个令人满意的结果。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种事件类型识别方法及装置。本专利技术的提供一种事件类型识别方法,包括以下步骤:对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个词语的词向量;将训练样本集中的预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量ri,进而将训练样本集表示为特征向量[r1,r2,...,rn];在特征向量ri的基础上加入事件类型向量得到特征向量v,对训练样本集进行事件类型聚类,得到多个聚类簇并进行处理;根据所述聚类簇,训练所述训练样本集,得到带有类型聚类正则化项的神经网络模型;对测试样本集中所有文本进行分词、标注词性处理后输入所述词向量模型得到测试样本中每个词语的词向量;将测试样本集中预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量,进而将测试样本表示为特征向量;将测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型,然后进行softmax操作得到测试样本属于某一事件的概率。本专利技术还提供了一种事件类型识别装置,包括训练样本集特征提取模块、事件类型聚类及训练模块、测试样本集特征提取模块、以及测试模块;所述训练样本集特征提取模块,用于对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个词语的词向量;将训练样本集中的预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量ri,进而将训练样本集表示为特征向量[r1,r2,...,rn];所述事件类型聚类及训练模块,用于在特征向量ri的基础上加入事件类型向量得到特征向量v,对训练样本集进行事件类型聚类,得到多个聚类簇并进行处理;根据所述聚类簇,训练所述训练样本集,得到带有类型聚类正则化项的神经网络模型;所述测试样本集特征提取模块,用于对测试样本集中所有文本进行分词、标注词性处理后输入所述词向量模型得到测试样本中每个词语的词向量;将测试样本集中预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量,进而将所述测试样本表示为特征向量;所述测试模块,用于将测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型,然后进行softmax操作得到测试样本属于某一事件的概率。本专利技术有益效果如下:本专利技术实施例运用聚类算法将所有事件类型自动聚为几个群组,并且提出类型-群组正则项来促进同一个群组中的类型在训练过程中共享信息,这样稀疏的类型的事件就可以从同一个群组中的密集类型中获取部分信息。进一步的,本专利技术实施例的神经网络模型使用词向量作为输入并且具有自动学习特征,充分利用了神经网络的优势,能够解决事件检测任务中数据不平衡带来的问题。附图说明图1是本专利技术方法实施例的事件类型识别方法的流程图;图2是本专利技术方法实施例实例1的事件类型识别方法的示意图;图3是本专利技术装置实施例的事件类型识别装置的结构示意图。具体实施方式为了解决现有技术事件检测任务中数据不平衡带来的问题,本专利技术提供了一种事件类型识别方法及装置,以下结合附图以及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不限定本专利技术。根据本专利技术的方法实施例,提供了一种事件类型识别方法,图1是本专利技术方法实施例的事件类型识别方法的流程图,如图1所示,根据本专利技术方法实施例的事件类型识别方法,包括如下处理:步骤101,对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个词语的词向量;将训练样本集中的预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量ri,进而将训练样本集表示为特征向量[r1,r2,...,rn]。在步骤101中,所述预定词性的词语为名称和动词。进一步的,所述对训练样本集和测试样本集除进行分词以及标注词性处理,还包括去除停用词等。具体的,对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个词语的词向量包括以下步骤:对训练样本集中所有文本进行分词、标注词性处理后得到词序列{w1,w2,...,wT本文档来自技高网
...

【技术保护点】
一种事件类型识别方法,其特征在于,包括以下步骤:对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个词语的词向量;将训练样本集中的预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量ri,进而将训练样本集表示为特征向量[r1,r2,...,rn];在特征向量ri的基础上加入事件类型向量得到特征向量v,对训练样本集进行事件类型聚类,得到多个聚类簇并进行处理;根据所述聚类簇,训练所述训练样本集,得到带有类型聚类正则化项的神经网络模型;对测试样本集中所有文本进行分词、标注词性处理后输入所述词向量模型得到测试样本中每个词语的词向量;将测试样本集中预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量,进而将测试样本表示为特征向量,所述测试样本为测试样本集中的文本;将测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型,然后进行softmax操作得到测试样本属于某一事件的概率。

【技术特征摘要】
1.一种事件类型识别方法,其特征在于,包括以下步骤:对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个词语的词向量;将训练样本集中的预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量ri,进而将训练样本集表示为特征向量[r1,r2,...,rn];在特征向量ri的基础上加入事件类型向量得到特征向量v,对训练样本集进行事件类型聚类,得到多个聚类簇并进行处理;根据所述聚类簇,训练所述训练样本集,得到带有类型聚类正则化项的神经网络模型;对测试样本集中所有文本进行分词、标注词性处理后输入所述词向量模...

【专利技术属性】
技术研发人员:佟玲玲杜翠兰钮艳刘洋段东圣鲁睿程光项菲柳毅
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1