一种事件类型识别方法及装置制造方法及图纸

技术编号：13975190 阅读：155 留言：0更新日期：2016-11-11 09:33

本发明专利技术公开了一种事件类型识别方法及装置。该方法包括以下步骤：对训练集中所有文本进行分词、提取词性处理后训练词向量空间模型，提取文本的特征，将文本表示为特征向量；对于训练集进行事件类型聚类，训练带有类型聚类正则化项的神经网络模型；对于测试样本同样进行分析、提取词性处理，并利用已经训练好的词向量模型，得到特征表示；利用类型聚类正则化项的神经网络模型进行事件类别识别。借助于本发明专利技术的技术方案，能够利用同一群组中的类型共享信息来减轻标注数据不平衡带来的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机自然语言处理领域，特别涉及一种事件类型识别方法及装置。
技术介绍
随着大数据时代的来临，特别是微博、微信、购物等移动应用的推广，文本数量呈爆炸式增长，如何从文本中挖掘出有价值的信息成为当前的一项重要研究课题。信息抽取是从大量无结构文本中识别和抽取人们感兴趣的信息，为进一步的话题检测与跟踪、信息检索、知识问答等应用打下基础。例如，从网站浏览记录中提取用户关心的话题，从新闻报道中提取爆炸、恐怖袭击等重大事件。美国著名机构TDT(Topic Detection and Tracking)针对新闻媒体等网络文本设立了专门的研究课题，目的是能够对新闻媒体中的热点话题进行持续地追踪和检索。TDT的主要任务包括：(a)文本数据信息过滤和提取；(b)热点事件发生时间抽取；(c)热点事件与话题挖掘。其中事件类型识别是TDT的关键技术。目前主流的事件类型识别方法采用了有监督学习方法。有监督学习方法利用标注好的实例集合来训练分类器。但是，现在可获取的已标注数据都是高度不平衡的。原因在于常见事件和不常见事件的出现情况有很大不同。举例来说，ACE2005将事件分为了8个大类，33个小类。表一表一显示了ACE2005语料中的已标注事件中最常见及最不常见事件的统计信息。最常出现的事件的出现次数比最不常见的事件的出现次数高了大约55(3187/57)倍。对于普通事件来说，比如攻击和运输，它们在现实生活中经常发生，语料中也有数以百计的此类标注实例。然而，对于那些不常见的事件，语料中仅仅只有几条标注的实例。像引渡、假释和宣告无罪这些类别的事件，在语料库中只有不到10条标...

【技术保护点】
一种事件类型识别方法，其特征在于，包括以下步骤：对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练，根据词向量模型的输出得到训练样本集中每个词语的词向量；将训练样本集中的预定词性的词语作为事件触发词，根据事件触发词的词向量，将触发词及触发词的上下文表示为特征向量ri，进而将训练样本集表示为特征向量[r1，r2，...，rn]；在特征向量ri的基础上加入事件类型向量得到特征向量v，对训练样本集进行事件类型聚类，得到多个聚类簇并进行处理；根据所述聚类簇，训练所述训练样本集，得到带有类型聚类正则化项的神经网络模型；对测试样本集中所有文本进行分词、标注词性处理后输入所述词向量模型得到测试样本中每个词语的词向量；将测试样本集中预定词性的词语作为事件触发词，根据事件触发词的词向量，将触发词及触发词的上下文表示为特征向量，进而将测试样本表示为特征向量，所述测试样本为测试样本集中的文本；将测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型，然后进行softmax操作得到测试样本属于某一事件的概率。

【技术特征摘要】
1.一种事件类型识别方法，其特征在于，包括以下步骤：对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练，根据词向量模型的输出得到训练样本集中每个词语的词向量；将训练样本集中的预定词性的词语作为事件触发词，根据事件触发词的词向量，将触发词及触发词的上下文表示为特征向量ri，进而将训练样本集表示为特征向量[r1，r2，...，rn]；在特征向量ri的基础上加入事件类型向量得到特征向量v，对训练样本集进行事件类型聚类，得到多个聚类簇并进行处理；根据所述聚类簇，训练所述训练样本集，得到带有类型聚类正则化项的神经网络模型；对测试样本集中所有文本进行分词、标注词性处理后输入所述词向量模...

【专利技术属性】
技术研发人员：佟玲玲，杜翠兰，钮艳，刘洋，段东圣，鲁睿，程光，项菲，柳毅，
申请(专利权)人：国家计算机网络与信息安全管理中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人