【技术实现步骤摘要】
目标事件抽取数据处理系统
[0001]本专利技术涉及数据处理
,尤其涉及一种目标事件抽取数据处理系统。
技术介绍
[0002]随着互联网的迅速普及和发展,大量数据信息在网络中产生和传播,如何从海量自然语言文本中及时准确地找到需要的信息变得日益迫切。海量自然语言文档具有数据量大,结构不统一,冗余度较高、更新快等特点。现有技术中通常采用机器学习的方式训练得到一个事件抽取模型来进行事件抽取,事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。但是,直接采用一个事件抽取模型的方式进行事件抽取的方法比较依赖于语料,如果语料数量小、不全面或不合适的话会对事件抽取结果有很大的影响,尤其对于没有被作为训练样本的进行学习的事件类型,会导致事件抽取的准确度低,抽取的事件信息不完成整。由此可知,如何提高事件抽取结果的完整性和准确性,成为亟待解决的技术问题。
技术实现思路
[0003]本专利技术目的在于,提供一种目标事件抽取数据处理系统,提高了目标事件抽取结果的完整性和准确性。
[0004]根据本专利技术一方面,提供了一种目标事件抽取数据处理系统,包括预先配置的事件论元角色配置表、预设的目标事件数据结构、存储有计算机程序的存储器和处理器,所述事件论元角色配置表用于存储事件论元角色信息记录,所述事件论元角色信息记录包括事件类型字段、论元角色字段和论元角色优先级字段;所述目标事件数据结构包括目标触发词数据段、目标事件类型数据段和目标论元角色数据段;所述处理器执行所述计算机程序时,实现以下步骤 ...
【技术保护点】
【技术特征摘要】
1.一种目标事件抽取数据处理系统,其特征在于,包括预先配置的事件论元角色配置表、预设的目标事件数据结构、存储有计算机程序的存储器和处理器,所述事件论元角色配置表用于存储事件论元角色信息记录,所述事件论元角色信息记录包括事件类型字段、论元角色字段和论元角色优先级字段;所述目标事件数据结构包括目标触发词数据段、目标事件类型数据段和目标论元角色数据段;所述处理器执行所述计算机程序时,实现以下步骤:步骤S1、从待处理文本中提取候选触发词,构建候选触发词列表{A1,A2,
…
A
N
}, A
n
为第n个候选触发词,n的取值范围为1到N,N为待处理文本中候选触发词的数量;步骤S2、获取每一候选触发词对应的事件类型,若存在预设的目标事件类型,则将所述目标事件类型对应的候选触发词确定为目标触发词A
n0
,将所述目标触发词存储至所述目标触发词数据段、将所述目标数据类型存储至目标事件类型数据段,执行步骤S3,否则,确定所述待处理文本中不存在目标事件,结束流程;步骤S3、根据所述事件论元角色配置表确定目标事件类型对应的目标论元角色列表{B1,B2,
…
B
M
}, B1、B2、
…
B
M
的优先级依次降低,B
m
为第m个目标论元角色,m的取值范围为1到M,M为目标事件类型对应的目标论元角色数量,初始化m=1,初始化历史信息h
m
= A
m0
;步骤S4、基于A
m0
、B
m 、h
m
从所述待处理文本中提取出第m论元信息C
m
;步骤S5、比较m和M,若m<M,则设置m=m+1,,返回执行步骤S4,若m=M,则将{C1,C2,
…
C
M
}存储至目标论元角色数据段,生成目标事件数据。2.根据权利要求1所述的系统,其特征在于,还包括事件类型名称列表{D1,D2,
…
D
R
},D
r
为第r个事件类型名称,r的取值范围为1到R,R为事件类型名称数量,所述步骤S2中,获取每一候选触发词对应的事件类型,包括:步骤S21、将D
r
输入预设的编码器进行编码,并对编码结果进行池化处理得到第r事件类型名称池化编码D
r
’
;步骤S22、将A
n
输入所述编码器,进行编码并对编码结果进行池化处理,得到第n候选触发词池化编码A
n
’
,D
r
’
和A
n
’
向量维度相同;步骤S23、判断是否存在r,使得r满足argmaxcos(A
n
’
, D
r
’
),且cos(A
n
’
, D
r
’
)>D1,其中,cos(A
n
’
, D
r
’
)表示A
n
’
与D
r
’
的余弦相似度,D1为预设的第一相似度阈值,若存在,将该第r事件类型确定为第n候选触发词对应的事件类型。3.根据权利要求2所述的系统,其特征在于,所述步骤S23中,若不存在r,使得r满足argmaxcos(A
n
’
, D
r
’
),且cos(A
n
’
, D
r
’
)>D1, 则执行步骤S24:步骤S24、获取从大到小排序的预设前G个cos(A
n
’
, D
r
’
)值{cos1,cos2,
…
cos
G
},cos
g
为第g个cos(A
n
’
, D
r
’
),g的取值为1到G,若任意g均满足cos
g+1
‑
cos
g
< D
2 ,D2为预设的误差阈值,则执行步骤S25,否则,确定所述事件类型名称列表中不存在第n候选触发词对应的事件类型;步骤S25、将cos
g
对应的候选触发词与所述触发词列表进行匹配,若不存在于所述触发词列表中,则将对应的cos
g
从{cos1,cos2,
…
cos
G
}中删除;步骤S26、若执行步骤S25操作之后的{cos1,cos2,
…
cos
G
}为空集,则确定所述事件类型
名称列表中不存在第n候选触发词对应的事件类型,否则,将执行步骤S25操作之后的{cos1,cos2,
…
cos
G
}中的最大cos
g
对应的事件类型确定为第n候选触发词对应的事件类型。4.根据权利要求1所述的系统,其特征在于,所述系统包括预设的触发词列表、预先训练的词性分析模型...
【专利技术属性】
技术研发人员:张正义,傅晓航,林方,常宏宇,
申请(专利权)人:中科雨辰科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。