一种基于标注的事件抽取方法技术

技术编号:20866684 阅读:94 留言:0更新日期:2019-04-17 09:23
本发明专利技术属于信息抽取技术领域,公开了一种基于标注的事件抽取方法,结合标注与神经网络来进行事件抽取,首先进行数据处理得到一个事件实体的标注标签,然后用神经网络来训练标注好的数据,得到结构化的事件抽取的结果;对于输入的句子,通过实体识别和基于神经网络的事件抽取模型,直接得到有事件的实体标签;本发明专利技术提供的方法由于可直接得到有事件的实体标签,因此不会造成错误传递,没有冗余信息,有效降低错误率;另一方面本发明专利技术提供的基于标注的事件抽取方法,通过改进类别的权重的方式来得到损失函数,可缓解类别不平衡所引起的模型倾向预测较多数据类别。

【技术实现步骤摘要】
一种基于标注的事件抽取方法
本专利技术属于信息抽取
,更具体地,涉及一种基于标注的事件抽取方法。
技术介绍
信息抽取技术是从松散、无结构的普通文本中抽取指定类型的实体、关系、事件等事实信息,并输出结构化的信息。譬如,在微信读书软件中可以根据读者阅览的历史书籍,通过抽取获得读者的兴趣偏好,推送与读者兴趣相关的书籍。在新闻领域中,对很长的新闻通过事件抽取,用最短时间让读者了解新闻表达的内容。事件抽取不仅可以应用在互联网领域,可以应用到其他领域中,比如医疗领域,通过诊断说明书以及病患的症状表述,可以很快锁定病患的疾病情况,可以让患者对病状的了解更加明确。在信息抽取领域中,事件抽取(EventExtraction)是信息抽取研究中最具有挑战性的任务之一,其主要研究的是如何从非结构化的文本信息抽取出结构化的事件信息。例如一个新闻事件中,抽取事件的时间、地点、参与者等形成一个结构化的文本信息。目前事件抽取的方法有很多,有基于传统的机器学习方法,如隐马尔可夫(HiddenMarkovModel,HMM)、条件随机场(Conditionalrandomfield,CRF)等,也有基于神经网络的深度学习方法,其主要代表有卷积神经网络(Convolutionneuralnetwork,CNN)、循环神经网络(Recurrentneuralnetwork,RNN)、长短时记忆网络(Longandshortmemorynetwork,LSTM)。传统机器学习方法中,通过对文本信息进行分句、分词、实体识别、句法和依存关系,利用自然语言处理的工具提取候选词的上下文的词义特征和语义特征,并构建特征向量,作为分类器的输入,运用一个分类器来预测事件发生的触发词,并根据触发词类型,判断该事件所属类型。基于神经网络的深度学习方法,对训练语料原始文本进行数据预处理;将以词向量表示的事件句序列传入到神经网络中,利用神经网络来训练得到每个候选触发词的语义特征;将以词向量表示的事件句序列传入到卷积神经网络中,利用神经网络训练得到候选触发词在事件句的全局特征;根据候选触发词的语义特征与候选触发词在句子的全局特征,利用Softmax来对每个候选触发词的预测结果进行概率化,然后得到分类结果,并根据触发词类型,判断该事件所属类型。现有的事件抽取方法主要存在两方面的问题:一是将事件抽取分为实体提取和事件判别两个阶段,命名实体识别的误差会影响事件的判别,会带来累计误差;二是对于具体的领域,往往需要构建大量的人工特征,特征选择的过程代价是很大的,随着模型复杂性的提高,可维护性会变得越来越差。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于标注的事件抽取方法,其目的在于改进事件抽取方法,将事件抽取和实体联合抽取,从而减少累计误差;并利用神经网络代替人工进行特征选择,减少特征选择过程的人力成本。为实现上述目的,按照本专利技术的一个方面,提供了一种基于标注的事件抽取方法,包括如下步骤:(1)构建语料库:以待抽取的内容作为语料,所有语料的集合作为事件抽取的语料库,对语料库的语料进行分段分句;对语料库的句子进行分类,筛选出包含实体和事件的句子;其中,实体是指客观存在并且可相互区别的事物,事件是指发生在某个特定时间段由一个或多个角色参与的一个或多个动作组成的事情或者状态的改变;(2)构建训练集和测试集:把语料文本随机分配形成两个数据集,分别为训练集、测试集;在一个优选的实施例中,训练集与测试集的文本数量比例是4:1;(3)对语料进行标注:对句子中的实体以{边界位置-事件-实体}的形式来进行标注:实体位置信息{B(实体开始)、I(实体内部)、E(实体结尾)、S(单个实体)}、事件类型{根据语料预先定义好的关系类型进行编码}、实体类型信息,句子中的其他部分全部标记为“O”。(4)构建神经网络模型:以Bi-LSTM(Bi-directionalLongShortTermMemory)作为神经网络模型,Bi-LSTM由两个结构相同但权重不共享的LSTM网络构成;将将标注好的语料正向和逆向分别输入到这两个LSTM网络中,分别得到正向和逆向的特征向量,将这两个特征向量拼接在一起得到上下文特征向量;根据上下文特征向量计算预测的标注标签概率,根据标注标签概率建立损失函数;(5)训练神经网络模型:对网络参数进行初始化,输入训练数据对神经网络模型的参数进行优化;在测试集上对神经网络模型进行评估,当在测试集合上的抽取准确率在预设阈值区间内,判定神经网络模型达到收敛;(6)对待抽取文本进行事件预测:将待抽取文本输入训练好的神经网络模型中,预测序列每一个字符的标签预测结果;依据标签预测结果对文本进行拼接,得到结构化的事件抽取结果。优选地,上述基于标注的时间抽取方法,步骤(4)中,获得序列S的上下文特征向量的方法包括:(4.1)将输入的长度为n的序列S=(x1,x2,…,xn),的字向量逐一输入到正向LSTM网络中,获得正向特征向量(4.2)将输入的长度为n的序列S=(x1,x2,…,xn),的字向量逐一输入到逆向LSTM网络中,获得反向的特征向量(4.3)将正向、反向两个特征向量拼接起来,得到序列S的上下文特征向量(4.4)基于上述的上下文特征向量,经过神经网络的归一化层(Softmax)来计算预测的标注标签概率其中,yt=Wyht+by;Wy是softmax层的参数矩阵,Nt是所有标签的数目,by是指线性层的偏置;i是指标签的索引;t是指句子中字的索引;(4.5)定义损失函数为:其中,|D|是指训练集的大小,Lj是指句子的长度,,Ljt是指第j句话中第t个字的交叉熵;t是指句子中字的索引;j是指训练集中句子的索引;是指第i个句子中第j个字的标签;是指第i个句子中第j个字预测标签的概率分布;α是指标注标签类别的权重,权重越大表示对类别的影响越大,对模型的影响越大;标签是‘O’步骤(3)中用于对句子中其他部分进行标记指定的标签。与现有的分类问题和序列标注问题使用交叉熵作为损失函数不同,本步骤中对不同的事件类别分配了不同的权重,通过调控每个事件类别的训练权重有效事件类别不平衡对预测结果的影响。优选地,上述基于标注的时间抽取方法,步骤(1)中,为了保证抽取模型的泛化性能,将一些不包含实体或事件的句子也添加到语料文本中,得到一个句子级的语料文本,以增加神经网络模型的噪音,提高神经网络的泛化能力。优选地,上述基于标注的时间抽取方法,步骤(1)中,不包含事件的句子在语料文本中的占比达10%。优选地,上述基于标注的时间抽取方法,用数据表存储预测结果,得到结构化的文本信息。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果:(1)本专利技术提供的基于标注的事件抽取方法,结合标注与神经网络来进行事件抽取,首先进行数据处理得到一个事件实体的标注标签,然后用神经网络来训练标注好的数据,得到结构化的事件抽取的结果;对于输入的句子,通过实体识别和基于神经网络的事件抽取模型,直接得到有事件的实体标签;现有技术使用流水线的方法进行抽取,对输入的句子先进行命名实体识别,对识别出来的实体和事件进行两两组合,再进行关系分类,最后把存在事件实体关系的句子作为输入;这种流水线的方式会使本文档来自技高网
...

【技术保护点】
1.一种基于标注的事件抽取方法,其特征在于,包括如下步骤:(1)构建语料库:以待抽取的内容作为语料,所有语料的集合作为事件抽取的语料库,对语料库的语料进行分段分句;对语料库的句子进行分类,筛选出包含实体和事件的句子;(2)把语料文本随机分配形成两个数据集,分别为训练集、测试集;(3)对语料进行标注:对句子中的实体以{边界位置‑事件‑实体}的形式来进行标注:实体位置信息{B(实体开始)、I(实体内部)、E(实体结尾)、S(单个实体)}、事件类型{根据语料预先定义好的关系类型进行编码}、实体类型信息,句子中的其他部分全部标记为指定的标签。(4)以Bi‑LSTM作为神经网络模型,将标注好的语料正向和逆向分别输入到Bi‑LSTM的两个LSTM网络中,分别得到正向和逆向的特征向量,将这两个特征向量拼接在一起得到上下文特征向量;根据上下文特征向量计算预测的标注标签概率,根据标注标签概率建立损失函数;(5)对网络参数进行初始化,输入训练数据对神经网络模型的参数进行优化;在测试集上对神经网络模型进行评估,当在测试集合上的抽取准确率在预设阈值区间内,判定神经网络模型达到收敛;(6)将待抽取文本输入训练好的神经网络模型中,预测序列每一个字符的标签预测结果;依据标签预测结果对文本进行拼接,得到结构化的事件抽取结果。...

【技术特征摘要】
1.一种基于标注的事件抽取方法,其特征在于,包括如下步骤:(1)构建语料库:以待抽取的内容作为语料,所有语料的集合作为事件抽取的语料库,对语料库的语料进行分段分句;对语料库的句子进行分类,筛选出包含实体和事件的句子;(2)把语料文本随机分配形成两个数据集,分别为训练集、测试集;(3)对语料进行标注:对句子中的实体以{边界位置-事件-实体}的形式来进行标注:实体位置信息{B(实体开始)、I(实体内部)、E(实体结尾)、S(单个实体)}、事件类型{根据语料预先定义好的关系类型进行编码}、实体类型信息,句子中的其他部分全部标记为指定的标签。(4)以Bi-LSTM作为神经网络模型,将标注好的语料正向和逆向分别输入到Bi-LSTM的两个LSTM网络中,分别得到正向和逆向的特征向量,将这两个特征向量拼接在一起得到上下文特征向量;根据上下文特征向量计算预测的标注标签概率,根据标注标签概率建立损失函数;(5)对网络参数进行初始化,输入训练数据对神经网络模型的参数进行优化;在测试集上对神经网络模型进行评估,当在测试集合上的抽取准确率在预设阈值区间内,判定神经网络模型达到收敛;(6)将待抽取文本输入训练好的神经网络模型中,预测序列每一个字符的标签预测结果;依据标签预测结果对文本进行拼接,得到结构化的事件抽取结果。2.如权利要求1所述的基于标注的时间抽取方法,其特征在于,所述实体是指客观存在并且可相互区别的事物,事件是指发生在某个特定时间段由一个或多个角色参与的一个或多个动作组成的事情或者状态的改变。3.如权...

【专利技术属性】
技术研发人员:王家奎
申请(专利权)人:园宝科技武汉有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1