目标事件抽取数据处理系统技术方案

技术编号:30271822 阅读:13 留言:0更新日期:2021-10-09 21:28
本发明专利技术涉及一种目标事件抽取数据处理系统,包括预先配置的事件论元角色配置表、预设的目标事件数据结构、存储有计算机程序的存储器和处理器,所述事件论元角色配置表用于存储事件论元角色信息记录,所述事件论元角色信息记录包括事件类型字段、论元角色字段和论元角色优先级字段;所述目标事件数据结构包括目标触发词数据段、目标事件类型数据段和目标论元角色数据段。本发明专利技术提高了目标事件抽取结果的完整性和准确性。完整性和准确性。完整性和准确性。

【技术实现步骤摘要】
目标事件抽取数据处理系统


[0001]本专利技术涉及数据处理
,尤其涉及一种目标事件抽取数据处理系统。

技术介绍

[0002]随着互联网的迅速普及和发展,大量数据信息在网络中产生和传播,如何从海量自然语言文本中及时准确地找到需要的信息变得日益迫切。海量自然语言文档具有数据量大,结构不统一,冗余度较高、更新快等特点。现有技术中通常采用机器学习的方式训练得到一个事件抽取模型来进行事件抽取,事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。但是,直接采用一个事件抽取模型的方式进行事件抽取的方法比较依赖于语料,如果语料数量小、不全面或不合适的话会对事件抽取结果有很大的影响,尤其对于没有被作为训练样本的进行学习的事件类型,会导致事件抽取的准确度低,抽取的事件信息不完成整。由此可知,如何提高事件抽取结果的完整性和准确性,成为亟待解决的技术问题。

技术实现思路

[0003]本专利技术目的在于,提供一种目标事件抽取数据处理系统,提高了目标事件抽取结果的完整性和准确性。
[0004]根据本专利技术一方面,提供了一种目标事件抽取数据处理系统,包括预先配置的事件论元角色配置表、预设的目标事件数据结构、存储有计算机程序的存储器和处理器,所述事件论元角色配置表用于存储事件论元角色信息记录,所述事件论元角色信息记录包括事件类型字段、论元角色字段和论元角色优先级字段;所述目标事件数据结构包括目标触发词数据段、目标事件类型数据段和目标论元角色数据段;所述处理器执行所述计算机程序时,实现以下步骤:步骤S1、从待处理文本中提取候选触发词,构建候选触发词列表{A1,A2,

A
N
}, A
n
为第n个候选触发词,n的取值范围为1到N,N为待处理文本中候选触发词的数量;步骤S2、获取每一候选触发词对应的事件类型,若存在预设的目标事件类型,则将所述目标事件类型对应的候选触发词确定为目标触发词A
n0
,将所述目标触发词存储至所述目标触发词数据段、将所述目标数据类型存储至目标事件类型数据段,执行步骤S3,否则,确定所述待处理文本中不存在目标事件,结束流程;步骤S3、根据所述事件论元角色配置表确定目标事件类型对应的目标论元角色列表{B1,B2,

B
M
}, B1、B2、

B
M
的优先级依次降低,B
m
为第m个目标论元角色,m的取值范围为1到M,M为目标事件类型对应的目标论元角色数量,初始化m=1,初始化历史信息h
m
= A
m0
;步骤S4、基于A
m0
、B
m 、h
m
从所述待处理文本中提取出第m论元信息C
m
;步骤S5、比较m和M,若m<M,则设置m=m+1,,返回执行步骤S4,若m=M,则将{C1,C2,

C
M
}存储至目标论元角色数据段,生成目标事件数据。
[0005]本专利技术与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本专利技术提供的一种目标事件抽取数据处理系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:本专利技术通过依次抽取触发词、事件类型和论元信息,且在论元抽取过程中,通过设置论元优先级以及融合历史信息,提高了论元信息抽取的准确性,进而也提高了目标事件抽取结果的完整性和准确性。
[0006]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
[0007]图1为本专利技术实施例提供的目标事件抽取数据处理系统示意图。
具体实施方式
[0008]为更进一步阐述本专利技术为达成预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术提出的一种目标事件抽取数据处理系统的具体实施方式及其功效,详细说明如后。
[0009]本专利技术实施例提供了一种目标事件抽取数据处理系统,如图1所示,包括预先配置的事件论元角色配置表、预设的目标事件数据结构、存储有计算机程序的存储器和处理器,所述事件论元角色配置表用于存储事件论元角色信息记录,所述事件论元角色信息记录包括事件类型字段、论元角色字段和论元角色优先级字段;所述目标事件数据结构包括目标触发词数据段、目标事件类型数据段和目标论元角色数据段;所述处理器执行所述计算机程序时,实现以下步骤:步骤S1、从待处理文本中提取候选触发词,构建候选触发词列表{A1,A2,

A
N
}, A
n
为第n个候选触发词,n的取值范围为1到N,N为待处理文本中候选触发词的数量;步骤S2、获取每一候选触发词对应的事件类型,若存在预设的目标事件类型,则将所述目标事件类型对应的候选触发词确定为目标触发词A
n0
,将所述目标触发词存储至所述目标触发词数据段、将所述目标数据类型存储至目标事件类型数据段,执行步骤S3,否则,确定所述待处理文本中不存在目标事件,结束流程;步骤S3、根据所述事件论元角色配置表确定目标事件类型对应的目标论元角色列表{B1,B2,

B
M
}, B1、B2、

B
M
的优先级依次降低,B
m
为第m个目标论元角色,m的取值范围为1到M,M为目标事件类型对应的目标论元角色数量,初始化m=1,初始化历史信息h
m
= A
m0
;步骤S4、基于A
m0
、B
m 、h
m
从所述待处理文本中提取出第m论元信息C
m
;步骤S5、比较m和M,若m<M,则设置m=m+1,,返回执行步骤S4,若m=M,则将{C1,C2,

C
M
}存储至目标论元角色数据段,生成目标事件数据。
[0010]本专利技术实施例通过依次抽取触发词、事件类型和论元信息,且在论元抽取过程中,通过设置论元优先级以及融合历史信息,提高了论元信息抽取的准确性,进而也提高了目标事件抽取结果的完整性和准确性。
[0011]所述步骤S1具体可通过预先训练触发词发现模型,从待处理文本中抽取触发词或者设置触发词列表提取等形式来构建候选触发词列表,以下通过几个实施例来对触发词分类模型的构建方法进行详细说明:实施方式一、所述触发词发现模型基于预设的第一文本样本训练集和第一神经网络模型架构训练得到,所述第一文本训练集包括第一文本样本和对应的触发词,所述第一神经网络模型架构为序列标注架构;所述处理器执行所述计算机程序时,还实现以下步骤:步骤S10、从所述第一文本样本训练集获取第一文本样本,将预设的触发词问句与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标事件抽取数据处理系统,其特征在于,包括预先配置的事件论元角色配置表、预设的目标事件数据结构、存储有计算机程序的存储器和处理器,所述事件论元角色配置表用于存储事件论元角色信息记录,所述事件论元角色信息记录包括事件类型字段、论元角色字段和论元角色优先级字段;所述目标事件数据结构包括目标触发词数据段、目标事件类型数据段和目标论元角色数据段;所述处理器执行所述计算机程序时,实现以下步骤:步骤S1、从待处理文本中提取候选触发词,构建候选触发词列表{A1,A2,

A
N
}, A
n
为第n个候选触发词,n的取值范围为1到N,N为待处理文本中候选触发词的数量;步骤S2、获取每一候选触发词对应的事件类型,若存在预设的目标事件类型,则将所述目标事件类型对应的候选触发词确定为目标触发词A
n0
,将所述目标触发词存储至所述目标触发词数据段、将所述目标数据类型存储至目标事件类型数据段,执行步骤S3,否则,确定所述待处理文本中不存在目标事件,结束流程;步骤S3、根据所述事件论元角色配置表确定目标事件类型对应的目标论元角色列表{B1,B2,

B
M
}, B1、B2、

B
M
的优先级依次降低,B
m
为第m个目标论元角色,m的取值范围为1到M,M为目标事件类型对应的目标论元角色数量,初始化m=1,初始化历史信息h
m
= A
m0
;步骤S4、基于A
m0
、B
m 、h
m
从所述待处理文本中提取出第m论元信息C
m
;步骤S5、比较m和M,若m<M,则设置m=m+1,,返回执行步骤S4,若m=M,则将{C1,C2,

C
M
}存储至目标论元角色数据段,生成目标事件数据。2.根据权利要求1所述的系统,其特征在于,还包括事件类型名称列表{D1,D2,

D
R
},D
r
为第r个事件类型名称,r的取值范围为1到R,R为事件类型名称数量,所述步骤S2中,获取每一候选触发词对应的事件类型,包括:步骤S21、将D
r
输入预设的编码器进行编码,并对编码结果进行池化处理得到第r事件类型名称池化编码D
r

;步骤S22、将A
n
输入所述编码器,进行编码并对编码结果进行池化处理,得到第n候选触发词池化编码A
n

,D
r

和A
n

向量维度相同;步骤S23、判断是否存在r,使得r满足argmaxcos(A
n

, D
r

),且cos(A
n

, D
r

)>D1,其中,cos(A
n

, D
r

)表示A
n

与D
r

的余弦相似度,D1为预设的第一相似度阈值,若存在,将该第r事件类型确定为第n候选触发词对应的事件类型。3.根据权利要求2所述的系统,其特征在于,所述步骤S23中,若不存在r,使得r满足argmaxcos(A
n

, D
r

),且cos(A
n

, D
r

)>D1, 则执行步骤S24:步骤S24、获取从大到小排序的预设前G个cos(A
n

, D
r

)值{cos1,cos2,

cos
G
},cos
g
为第g个cos(A
n

, D
r

),g的取值为1到G,若任意g均满足cos
g+1

cos
g
< D
2 ,D2为预设的误差阈值,则执行步骤S25,否则,确定所述事件类型名称列表中不存在第n候选触发词对应的事件类型;步骤S25、将cos
g
对应的候选触发词与所述触发词列表进行匹配,若不存在于所述触发词列表中,则将对应的cos
g
从{cos1,cos2,

cos
G
}中删除;步骤S26、若执行步骤S25操作之后的{cos1,cos2,

cos
G
}为空集,则确定所述事件类型
名称列表中不存在第n候选触发词对应的事件类型,否则,将执行步骤S25操作之后的{cos1,cos2,

cos
G
}中的最大cos
g
对应的事件类型确定为第n候选触发词对应的事件类型。4.根据权利要求1所述的系统,其特征在于,所述系统包括预设的触发词列表、预先训练的词性分析模型...

【专利技术属性】
技术研发人员:张正义傅晓航林方常宏宇
申请(专利权)人:中科雨辰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1