一种金融领域事理图谱构建方法技术

技术编号:39518358 阅读:14 留言:0更新日期:2023-11-25 18:56
本申请公开了一种金融领域事理图谱构建方法

【技术实现步骤摘要】
一种金融领域事理图谱构建方法、装置、设备及存储介质


[0001]本专利技术涉及自然语言处理领域,特别涉及一种金融领域事理图谱构建方法

装置

设备及存储介质


技术介绍

[0002]事理图谱是以结构化的方式描述客观世界中的事件及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织

管理和理解互联网海量信息的能力

在金融领域,每天产生大量金融事件,以及事件之间因果逻辑关系

识别金融事件的因果逻辑,构建事理图谱,有助于金融事件的影响因素探究以及因果逻辑推理,进而可对未来经济指标进行预测,并指导投资建议

[0003]现有技术中,定义事理图谱,大多数采用“事件1,关系,事件
2”的三元组结构,技术上主要涉及事件关系抽取和事件对齐等,但通过现有技术构建的事理图谱结构太过简单,难以满足更复杂业务场景的需求,并且没有对事件进行细粒度拆分处理,导致事件涵盖的实体信息,如公司

行业

产品

指标等信息无法知道,并且缺乏对抽取的知识有效的质量控制,容易导致数据噪声大,会对下游应用带来不利影响


技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种金融领域事理图谱构建方法

装置

设备及存储介质,可以对事件进行细粒度操作,并基于得到的三元组构建事理图谱,使事理图谱可以有效对接不同业务场景,并且在构建事理图谱之前可以对论元进行对齐操作,以对得到的事理图谱进行有效的质量控制

其具体方案如下:第一方面,本申请公开了一种金融领域事理图谱构建方法,包括:基于预训练模型对输入的金融文本数据进行编码处理,以得到与所述金融文本数据对应的若干三元组;所述若干三元组包括因事件

事件关系

果事件;基于预设实体类型对所述若干三元组中的所述因事件以及所述果事件进行细粒度实体识别,以得到与所述因事件以及所述果事件对应的事件论元;对所述事件论元进行相似度计算,并对确定的相似论元进行对齐操作,以得到对齐论元;对所述若干三元组进行筛选,并基于所述对齐论元对筛选后三元组再次进行筛选,以确定目标三元组,并基于所述目标若干三元组构建目标事理图谱

[0005]可选的,所述基于预训练模型对输入的金融文本数据进行编码处理,以得到与所述金融文本数据对应的若干三元组,包括:将接收的金融文本数据输入至第一预训练模型,以将所述金融文本数据转换为序列数据;将所述序列数据转换为序列数据表格,以基于所述序列数据表格确定与所述金融文本数据中对应的若干三元组

[0006]可选的,所述将所述序列数据转换为序列数据表格,以基于所述序列数据表格确定与所述金融文本数据中对应的若干三元组,包括:将所述序列数据转换为因事件序列数据表格

事件关系序列数据表格

果事件序列数据表格;判断所述因事件序列数据表格以及所述果事件序列数据表格中首尾索引单元格的单元格值是否为预设单元格值,以基于第一当前判断结果生成事件预测值;判断所述事件关系序列数据表格中首索引单元格的单元格值是否为预设单元格值,以基于第二当前判断结果生成关系预测值;基于预设第一
S
型生长曲线函数对所述生成事件预测值以及所述关系预测值处理,得到与所述金融文本数据中对应的若干三元组

[0007]可选的,所述基于预设实体类型对所述若干三元组中的所述因事件以及所述果事件进行细粒度实体识别,以得到与所述因事件以及所述果事件对应的事件论元,包括:基于第二预训练模型对所述若干三元组中的所述因事件以及所述果事件进行编码学习,以得到与所述因事件以及所述果事件对应的表征向量;通过所述表征向量生成初始预测表格,并对所述初始预测表格进行最大池化操作,以得到全局特征向量;通过所述全局特征向量生成最终预测表格,以通过预设激活函数对所述最终预测表格进行解码得到与所述因事件以及所述果事件对应的事件论元

[0008]可选的,所述对所述事件论元进行相似度计算,并对确定的相似论元进行对齐操作,以得到对齐论元,包括:将所述事件论元输入至预设对齐模型,以对所述事件论元进行相似度计算,得到相似度矩阵;并通过预设第二
S
型生长曲线函数对所述相似度矩阵进行处理,以确定所述事件论元中的相似论元,并对所述相似论元进行对齐,得到对齐论元

[0009]可选的,所述对所述若干三元组进行筛选,并基于所述对齐论元对筛选后三元组再次进行筛选,以确定目标三元组,并基于所述目标若干三元组构建目标事理图谱,包括:基于预设概率预测模型确定所述若干三元组中每个三元组的抽取概率,并剔除所述抽取概率小于预设抽取概率阈值的三元组,以得到第一筛选后三元组;通过预设语言模型确定所述第一筛选后三元组中每一个三元组的流畅度,并剔除所述流畅度小于预设流畅度阈值的三元组,以得到第二筛选后三元组;确定所述第二筛选后三元组中所述对齐论元满足预设论元格式的三元组,以得到目标三元组,并基于所述目标三元组构建目标事理图谱

[0010]可选的,所述基于预设概率预测模型确定所述若干三元组中每个三元组的抽取概率,包括:基于所述预设概率预测模型确定所述若干三元组中每个三元组的因事件预测概率

事件关系预测概率

果事件预测概率,并将所述因事件预测概率

所述事件关系预测概率

所述果事件预测概率的乘积确定为所述抽取概率

[0011]第二方面,本申请公开了一种金融领域事理图谱构建装置,应用于目标框架,包括:
三元组确定模块,用于基于预训练模型对输入的金融文本数据进行编码处理,以得到与所述金融文本数据对应的若干三元组;所述若干三元组包括因事件

事件关系

果事件;事件论元确定模块,用于基于预设实体类型对所述若干三元组中的所述因事件以及所述果事件进行细粒度实体识别,以得到与所述因事件以及所述果事件对应的事件论元;对齐论元确定模块,用于对所述事件论元进行相似度计算,并对确定的相似论元进行对齐操作,以得到对齐论元;事理图谱构建模块,用于对所述若干三元组进行筛选,并基于所述对齐论元对筛选后三元组再次进行筛选,以确定目标三元组,并基于所述目标若干三元组构建目标事理图谱

[0012]第三方面,本申请公开了一种电子设备,包括:存储器,用于保存计算机程序;处理器,用于执行所述计算机程序以实现如前述的金融领域事理图谱构建方法

[0013]第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现如前述的金融领域事理图谱构建方法

[0014]本申请中,首先基于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种金融领域事理图谱构建方法,其特征在于,包括:基于预训练模型对输入的金融文本数据进行编码处理,以得到与所述金融文本数据对应的若干三元组;所述若干三元组包括因事件

事件关系

果事件;基于预设实体类型对所述若干三元组中的所述因事件以及所述果事件进行细粒度实体识别,以得到与所述因事件以及所述果事件对应的事件论元;对所述事件论元进行相似度计算,并对确定的相似论元进行对齐操作,以得到对齐论元;对所述若干三元组进行筛选,并基于所述对齐论元对筛选后三元组再次进行筛选,以确定目标三元组,并基于所述目标若干三元组构建目标事理图谱
。2.
根据权利要求1所述的金融领域事理图谱构建方法,其特征在于,所述基于预训练模型对输入的金融文本数据进行编码处理,以得到与所述金融文本数据对应的若干三元组,包括:将接收的金融文本数据输入至第一预训练模型,以将所述金融文本数据转换为序列数据;将所述序列数据转换为序列数据表格,以基于所述序列数据表格确定与所述金融文本数据中对应的若干三元组
。3.
根据权利要求2所述的金融领域事理图谱构建方法,其特征在于,所述将所述序列数据转换为序列数据表格,以基于所述序列数据表格确定与所述金融文本数据中对应的若干三元组,包括:将所述序列数据转换为因事件序列数据表格

事件关系序列数据表格

果事件序列数据表格;判断所述因事件序列数据表格以及所述果事件序列数据表格中首尾索引单元格的单元格值是否为预设单元格值,以基于第一当前判断结果生成事件预测值;判断所述事件关系序列数据表格中首索引单元格的单元格值是否为预设单元格值,以基于第二当前判断结果生成关系预测值;基于预设第一
S
型生长曲线函数对所述生成事件预测值以及所述关系预测值处理,得到与所述金融文本数据中对应的若干三元组
。4.
根据权利要求1所述的金融领域事理图谱构建方法,其特征在于,所述基于预设实体类型对所述若干三元组中的所述因事件以及所述果事件进行细粒度实体识别,以得到与所述因事件以及所述果事件对应的事件论元,包括:基于第二预训练模型对所述若干三元组中的所述因事件以及所述果事件进行编码学习,以得到与所述因事件以及所述果事件对应的表征向量;通过所述表征向量生成初始预测表格,并对所述初始预测表格进行最大池化操作,以得到全局特征向量;通过所述全局特征向量生成最终预测表格,以通过预设激活函数对所述最终预测表格进行解码得到与所述因事件以及所述果事件对应的事件论元
。5.
根据权利要求1所述的金融领域事理图谱构建方法,其特征在于,所述对所述事件论元进行相似度计算,并对确定的相似论元进行对齐操作,以得到对齐论元,包括:将所述...

【专利技术属性】
技术研发人员:陈家银吴海胖章汗雨
申请(专利权)人:杭州同花顺数据开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1