一种基于联合标注和实体语义信息的事件抽取方法技术

技术编号:24800218 阅读:78 留言:0更新日期:2020-07-07 21:09
本发明专利技术公开了一种基于联合标注和实体语义信息的事件抽取方法,自然语言智能处理技术领域。本发明专利技术的事件抽取方法,首先采用BERT模型作为特征提取器;其次,基于字特征输入建模,不进行分词操作,并采用BIO标注,降低触发词识别的错误;再将抽取得到的事件通过计算事件相似度进行同类型事件的事件元素融合。从而使得本发明专利技术所提取的文本对象的特征信息更丰富、降低中文文本语料分词的粒度不同所导致的触发词的识别准确率的影响,以及避免因同一事件的事件元素信息可能出现在多个不同的段落或句子对事件抽取的准确性的影响。

【技术实现步骤摘要】
一种基于联合标注和实体语义信息的事件抽取方法
本专利技术属于自然语言智能处理
,具体涉及一种基于联合标注和实体语义信息的事件抽取方法。
技术介绍
事件抽取任务是识别描述事件信息的文本,从中抽取出事件元素并以结构化的形式呈现出来。事件抽取任务包括事件识别和事件元素抽取两个子任务。事件识别,即识别出文本中由事件触发词引导的事件实例并进行分类;事件元素抽取,即从事件描述句中抽取出事件元素并分类。根据抽取方法,事件抽取分为基于模式匹配的事件抽取和基于机器学习的事件抽取。在2002年前,事件抽取主要聚焦于模式匹配的方法,但移植性较差。2002年至2013年间,基于建立在统计模型基础上的机器学习的方法成为主流,该方法一般将事件抽取建模成多分类问题,但在特征提取的过程中过分依赖依存句法分析、词性标注等传统的自然语言处理工具,容易造成累计误差。2013年以来,越来越多的研究者开始转向基于神经网络的事件抽取,利用神经网络来挖掘事件中更深层次的语义信息,不再很大程度上依赖于人工定义的局部或全局特征,提升了事件抽取任务。目前,事件抽取任务存在的难点在于:第一、事件抽取过程中不仅要识别出事件触发词和事件类别,还要识别出事件元素和其在事件中的角色,因此需要挖掘出事件描述文本更深层次的特征。第二、中文文本语料分词的粒度不同对触发词的识别存在一定影响。第三、同一事件的事件元素信息可能出现在多个不同的段落或句子中。
技术实现思路
本专利技术的专利技术目的在于:针对上述存在的问题,提供一种基于联合标注和实体语义信息的事件抽取方式,提升对事件的触发词的识别准确率。本专利技术的基于联合标注和实体语义信息的事件抽取方法,包括以下步骤:步骤1:通过基于实体和事件触发词的联合标注模型对采集的每个事件描述句(简称句子)进行实体和事件触发词的抽取处理;所述实体和事件触发词的联合标注模型包括输入层、隐藏层和输出层;在输入层中,对每个句子采用使用BERT(BidirectionalEncoderRepresentationsfromTransformers)预训练的词向量对句子中的每个词进行初始化,作为联合标注模块的输入;在隐藏层中,包括前向LSTM(LongShort-TermMemory)层、后向LSTM层和拼接层;其中,前向LSTM层用于捕获上文特征信息,其输出记为后向LSTM层用于捕获下文特征信息,其输出记为拼接层用于将前向LSTM层和后向LSTM层的输出进行拼接,得到最终的隐藏层向量即事件描述句的上下文特征向量ht;本申请从前后两个方向获取句子的语义特征,可以更好的描绘事件描述句的信息。在输出层中,采用CRF(Conditionalrandomfield)标注模型对隐藏层向量进行字符序列化标注,为句子中的每一个字确定相应的标签;在CRF标注模型中,采用的序列标注机制为BIO标注机制,B表示字段开始,I表示字段中间,O表示其他字段;且句子中的每一个字的标签后设置有类型标识符;用于对句子中的实体和事件触发词的进行类型识别,即词的类型识别),其中,实体为表征事件的描述词,事件触发词的类型用于表征句子对应的事件类型。步骤2:将抽取得到的事件描述句的实体和事件触发词进行向量化表示,并传入自注意力机制层,基于自注意力机制层的输出得到实体语义特征向量。即对于抽取得到的实体和事件触发词组成词序列W={w1,...,wn-1,wm},其中,m是抽取出来的实体和触发词的个数之和,wj表示实体或触发词,j=1,2,...,m;对词序列W进行词向量转换,得到句子向量表示S={x1,x2,...,xm},再传入自注意力层,学习实体和触发词之间的依赖关系,得到实体语义特征向量Y={y1,y2,...,ym}。具体的,基于预设的自注意权重计算方式,将词向量xj通过自注意力层得到每个词向量的带权重向量化表示其中,自注意力权重aj,k的计算公式为:score函数为注意力打分函数,e表示自然底数,k,j=1,2,...,m;步骤3:将实体语义特征向量Y与上下文特征向量ht拼接后,传入Tree-LSTM层;即将实体的实体语义特征向量中的每个元素yj与下文特征向量ht进行拼接,实现对其特征维度的扩展处理。步骤4:将Tree-LSTM层输出的特征向量作为全连接层的输入;并对全连接层Maxout的输出采用Softmax分类器对实体进行事件元素分类;指定不同事件类型包括的事件元素类型,设置事件表示结构;所述事件表示结构包括:事件类型和对应类型的事件元素;基于每个句子的事件类型,以及抽取的实体及其事件元素类型,得到事件表示,即事件抽取结果;例如,对类型为突发事件的事件类型,指定其包括的事件元素类型为:时间,地点,对象,伤亡人数,动作;则突发事件的事件表示结构为:<事件类型,时间,地点,对象,伤亡人数,动作>。步骤5:基于事件相似性对具有相同事件类型的事件整理和融合处理:将具有相同事件类型的事件表示对应的事件分别记为事件A和事件B;基于事件A和事件B之间的相似度,将相似度大于或等于相似度阈值的事件聚为一类;并对同一聚簇的事件进行整理和融合处理,包括:删除冗余事件和和缺失信息补全(即对缺失的事件元素进行补全)。进一步的,步骤5中,事件A和事件B之间的相似度为事件之间的语义相似度、元素相似度和实体共现度的累加和;其中,事件之间的语义相似度、元素相似度和实体共现度具体为:(1)事件之间的语义相似度:将事件A和事件B对应的事件描述句的词向量表示之间的余弦值作为事件之间的相似度;其中,事件描述句的词向量表示为:对事件描述句中的每个词转换为词向量构成的词向量序列;(2)事件之间的元素相似度:基于事件表示结构,统计事件A和事件B之间同类型的事件元素中相同的元素占事件表示结构中的总元素(或者事件A和B包括的事件元素总数)的比例的总和作为事件之间的元素相似度;(3)事件之间的实体共现度:基于联合标注模型,分别得到事件A和事件B的实体集合;统计两个实体集合的实体类型和实体数统计;根据两个实体集合的共同实体类型数与两个实体结合的实体数总和的比值得到事件A和事件B的实体共现系度;进一步的,在融合处理时,若同一事件元素类型下的事件元素存在冲突,则选用出现次数多的事件元素;若出现次数相同,则选用粒度高的事件元素。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:一方面通过序列标注的方法可以降低错误识别中文触发词的情况,另一方面在大规模非结构化的数据信息中,可以根据事件抽取技术得到句子级的事件信息,并通过事件融合得到事件信息相对完整的篇章级的结构化事件。附图说明图1是本具体实施方式的处理过程示意图;图2是基于联合标注和实体语义特征向量的事件抽取处理过程示意图;图3是本专利技术的本文档来自技高网...

【技术保护点】
1.一种基于联合标注和实体语义信息的事件抽取方式,其特征在于,包括以下步骤:/n步骤1:通过基于实体和事件触发词的联合标注模型对采集的每个事件描述句进行实体和事件触发词的抽取处理;/n所述实体和事件触发词的联合标注模型包括输入层、隐藏层和输出层;/n在输入层中,对事件描述句采用使用BERT预训练的词向量对事件描述句中的每个词进行初始化,作为联合标注模块的输入;/n在隐藏层中,包括前向LSTM层、后向LSTM层和拼接层;/n其中,前向LSTM层用于捕获上文特征信息,其输出记为

【技术特征摘要】
1.一种基于联合标注和实体语义信息的事件抽取方式,其特征在于,包括以下步骤:
步骤1:通过基于实体和事件触发词的联合标注模型对采集的每个事件描述句进行实体和事件触发词的抽取处理;
所述实体和事件触发词的联合标注模型包括输入层、隐藏层和输出层;
在输入层中,对事件描述句采用使用BERT预训练的词向量对事件描述句中的每个词进行初始化,作为联合标注模块的输入;
在隐藏层中,包括前向LSTM层、后向LSTM层和拼接层;
其中,前向LSTM层用于捕获上文特征信息,其输出记为后向LSTM层用于捕获下文特征信息,其输出记为
拼接层用于将前向LSTM层和后向LSTM层的输出进行拼接,得到最终的隐藏层向量即事件描述句的上下文特征向量ht;
在输出层中,采用CRF标注模型对隐藏层向量进行字符序列化标注,为事件描述句中的每一个字确定相应的标签;且事件描述句中的每一个字的标签后设置有类型标识符,包括实体类型和事件触发词的事件类型;
步骤2:将抽取得到的事件描述句的实体和事件触发词进行向量化表示,并传入自注意力机制层,基于自注意力机制层的输出得到实体语义特征向量;
步骤3:将同一事件描述句的实体语义特征向量与下文特征向量ht进行拼接,再传入Tree-LSTM层;
步骤4:将Tree-LSTM层输出的特征向量作为全连接层的输入;
并对全连接层Maxout的输出采用Softmax分类器对实体进行事件元素分类;
指定不同事件类型包括的事件元素类型,设置事件表示结构;所述事件表示结构包括:事件类型和对应类型的事件元素;
基于每个事件描述句的事件类型,以及抽取的实体及其事件元素类型,得到事件描...

【专利技术属性】
技术研发人员:刘丹吴超任志愿赵明孟金凤
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1