【技术实现步骤摘要】
文档级事件要素抽取方法、设备及介质
[0001]本专利技术涉及文档级事件要素抽取领域,更为具体的,涉及一种文档级事件要素抽取方法、设备及介质。
技术介绍
[0002]随着互联网技术的蓬勃发展,网络空间里每天都会产生大量的数据信息,例如时事新闻、公司财报、电子病例等,从而极大丰富了人们获取信息的途径。这些网络信息具有多种多样的载体形式,比如文本、图片、音频和视频等,但这其中仍以文本所占比例最高。通过对文本的阅读,人类可以学习到事件发生的时间、地点、对象、动作等要素,从而了解当前社会和经济发展中的前沿问题,拓展知识储备。但是,信息的增量发展在给人类带来便利的同时,也给人类完全消化理解海量知识带来了挑战。如何从海量非结构化文本中高效筛选出我们所关注的事件知识,成为了信息爆炸时代下人类亟需解决的问题。
[0003]近年来,随着自然语言处理相关技术的飞速进步,事件抽取技术成为了信息处理领域的研究热点之一。事件抽取的核心任务是利用计算机从非结构化的自然语言文本中抽取出事件的要素信息,并以半结构化或结构化的形式进行表示。事件抽取的 ...
【技术保护点】
【技术特征摘要】
1.一种文档级事件要素抽取方法,其特征在于,包括以下步骤:S1,将篇章文本进行分句得到句子片段,对句子片段进行字符编码、位置编码和类型编码,分别得到编码向量C、L、S;将编码向量C、L、S进行叠加得到句子级初始化向量后送入预训练模型,获取句子向量V
i
,所述预训练模型包括Bert预训练模型;将各个句子向量V
i
进行拼接,获得初始篇章向量V
initial
;同时将句子级初始化向量送入注意力机制网络,对不同的句子赋予不同的权重值,获取包含句子间隐含关系的篇章向量V
relation
;将V
initial
和V
relation
进行叠加混合表征,得到最终的文本篇章表示V
text
;S2,基于步骤S1的文本篇章表示V
text
,通过序列标注方式对句子向量进行分类完成事件句识别及要素抽取,对篇章向量进行分类完成中心句识别及要素抽取,同时获得事件相关关系;S3,对中心句和事件间的相关关系进行数理统计,基于竞争性原则完成中心句筛选;S4,基于要素补全模型,完成中心事件要素补全,得到完整的文档级事件要素。2.根据权利要求1所述的文档级事件要素抽取方法,其特征在于,在步骤S1中,所述对句子片段进行字符编码、位置编码和类型编码,具体包括:基于字符表对每个句子片段中的字符进行字符编码,同时对字符所处的位置差异进行位置编码,对当前的句子再赋予一个类型编码。3.根据权利要求1所述的文档级事件要素抽取方法,其特征在于,在步骤S2中,所述通过序列标注方式对句子向量进行分类完成事件句识别及要素抽取,具体包括步骤:事件句标注采用0和1表示,0表示非事件句,1表示事件句,事件要素标注采用B
‑
I
‑
O表示,B表示要素起始位,I表示要素其它位,O表示非要素位,下标分别使用sub、obj、tim、loc、tri表示主体、客体、时间、地点、触发词,事件句识别通过对句向量中的[CLS]向量进行一个全连接线性变化,然后通过softmax二分类检测其是否为事件句;要素抽取通过对句向量中每个字符位向量进行一个全连接线性变化,通过softmax二分类检测其标志位,最终获得当前句子是否为事件句以及具体的事件要素信息。4.根据权利要求1所述的文档级事件要素抽取方法,其特征在于,在步骤S2中,所述对篇章向量进行分类完成中心句识别及要素抽...
【专利技术属性】
技术研发人员:廖泓舟,代翔,戴礼灿,潘磊,张武,彭晓,胡艳霞,
申请(专利权)人:中国电子科技集团公司第十研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。