当前位置: 首页 > 专利查询>武汉大学专利>正文

面向金融风险知识图谱的动态关系预测方法及设备技术

技术编号:36536602 阅读:12 留言:0更新日期:2023-02-01 16:22
本发明专利技术提供了一种面向金融风险知识图谱的动态关系预测方法及设备。所述方法包括:步骤S1至步骤S8。本发明专利技术使用知识图谱的层级结构作为特征提取层的结构,并将命名实体的特征注入特征提取层的神经元中,特征提取层的神经元为不同的命名实体,特征提取层间的连接为命名实体间的关系,同时使用无监督的语言模型作为训练任务,对输入语句进行特征提取,进而对命名实体间的关系进行学习,保证实体间关系更新的及时性。的及时性。的及时性。

【技术实现步骤摘要】
面向金融风险知识图谱的动态关系预测方法及设备


[0001]本专利技术实施例涉及知识图谱关系识别
,尤其涉及一种面向金融风险知识图谱的动态关系预测方法及设备。

技术介绍

[0002]在全球互联网快速发展的环境下,金融数据在互联网上不断累积,为防范金融风险提供新的数据源和视角。互联网上海量的金融数据存在多源异构的特点,难以得到有效采用。如何高效地描述金融领域存在的结构化事实,并采用这些知识产生价值就成为热点问题。金融风险知识图谱构建过程中数据集难以覆盖领域所有知识,导致大多数知识图谱是不完备的。知识图谱的不完备性成为阻碍提高AI服务质量的因素之一。金融行业的股权交易、企业并购、实际控制人变更事件频繁发生,导致金融风险知识图谱形成实体相对固定,但是关系更新频率高的特点。静态的关系难以适应不断变化的现实世界,使上层应用难以满足用户需求。相关方法通常根据知识图谱中已有的知识推理出新的关系,难以对知识图谱中的关系进行持续的更新。因此,开发一种面向金融风险知识图谱的动态关系预测方法及设备,可以有效克服上述相关技术中的缺陷,就成为业界亟待解决的技术问题。

技术实现思路

[0003]针对现有技术存在的上述问题,本专利技术实施例提供了一种面向金融风险知识图谱的动态关系预测方法及设备。
[0004]第一方面,本专利技术的实施例提供了一种面向金融风险知识图谱的动态关系预测方法,包括:步骤S1,对数据进行采集、预处理和数据集划分;步骤S2,构建企业风险库,该库由领域专家使用七步法构建,包含企业基本信息、企业股权信息、企业财务信息和企业风险信息;步骤S3,构建企业风险知识图谱,基于企业风险库,使用自顶向下的方式构建企业风险知识图谱;步骤S4,知识图谱向量化,使用TransE模型对知识图谱所包含知识进行训练,采用训练所得到的TransE模型将三元组形式的知识转化为知识向量;步骤S5,获取隐藏层结构,依据库层次结构抽取领域知识图谱结构,该结构作为后续神经网络模型隐藏层的结构;步骤S6,构建KGANN模型,该模型包括输入层、隐藏层和输出层三部分;其中输入层负责将输入语料转化为词向量,将步骤S1得到的数据集作为输入,通过BERT模型将数据进行向量化为;隐藏层使用步骤S2所得到的知识图谱结构,包括隐藏层层数、每层神经元个数、命名实体向量和关系向量,隐藏层神经元包含命名实体向量,隐藏层之间的连接使用关系向量代替,在模型进行训练的过程中,隐藏层间的连接学习到语料所含的语义信息,进而在BP反向传参的过程中对关系向量进行调整,使其更加符合当前的语义信息;输出层包括全连接层和功能实现层,其中全连接层将隐藏层的高维空间降至低维空间,功能实现层负责对完形填空任务中空缺的词进行预测,并将概率最高的词输出;步骤S7,使用数据集对S6所构建的KGANN模型进行训练,为防止过拟合现象的发生,使用early_stopping策略进行训练,直至模型收敛达到最佳效果,保存该模型,后续关系预测时使用;步骤S8,对KGANN模型中的连接
矩阵进行分析,计算不同关系与现实关系的语义相似度,通过校准后得到新的关系。
[0005]在上述方法实施例内容的基础上,本专利技术实施例中提供的面向金融风险知识图谱的动态关系预测方法,步骤S1中的数据采集包含一种检索策略,对不同企业分配不同的检索间隔时长,检索策略通过企业规模、企业关注度和企业风险三个维度将企业划分为I、II、III三类,每个维度的指标分为A、B、C三类;其中企业规模划分标准依据国家统计局公布的《统计上大中小型企业划分办法》,大型企业为第一A类,中型企业为第一B类,小微型企业为第一C类;企业关注度依据该企业在股吧帖子的阅读数量进行划分,阅读数量排名前30%的企业为第二A类、阅读数量排名在30%

70%之间的企业为第二B类、排名最后30%和股吧缺少对应企业信息的为第二C类;企业风险依据企查查所记录的自身风险、关联风险、历史风险和敏感舆情四者总数进行划分,当风险总数排名前30%的企业为第三A类、风险总数排名在30%

70%之间的企业为第三B类、排名最后30%和缺少对应企业信息的为第三C类;规模大的企业做出产权质押、实控人变更大额股份买卖行为时对金融系统产生的影响大,因此及时发现并识别;当企业关注度高时,有更多的投资者与该企业产生股权交易,此时对该企业信息进行及时更新,防范风险的发生以维护市场信心;当企业本身发生较多风险事件时加强监管,当企业规模、企业关注度和企业风险中两个及以上指标是A类时,则该企业为I类企业,当上述三个维度指标均是C类时,则该企业为III类企业,其余企业均为II类企业;I类企业、II类企业和III类企业的检索间隔时长分别为每小时、每天和每周。
[0006]在上述方法实施例内容的基础上,本专利技术实施例中提供的面向金融风险知识图谱的动态关系预测方法,步骤S5和S6深度学习中隐藏层的计算方式,其计算方式如式(1)所示:
[0007]y
i
=f(E
i
+R
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0008]其中,E
i
为第i个命名实体部分,R
i
为第i个连接部分,f(x)为激活函数,用来引入非线性因素,提高模型的学习能力和鲁棒性;E
i
的计算过程如式(2)所示:
[0009][0010]其中,x
j
为输入的第j个词向量,n为E
i
层神经元的个数,e
i
为第i个神经元所包含的命名实体向量,为区分不同知识的重要程度,给每条知识赋予权重w
i
,此时的知识是按行存放,输入神经元时按列读取,因此将(e
i
*w
i
)转置,接着计算输入的词向量和命名实体间的语义关联性,输入的第j个词向量x
j
和知识矩阵KGM维度不匹配,无法直接进行计算,则引入转换矩阵T做连接,将输入向量和加权的命名实体向量进行融合,最终得到命名实体部分的融合特征向量,第一层隐藏层连接部分的计算过程如式(3)所示:
[0011][0012]其中,b
i
为第i个神经元的偏置向量,R
i
是一个二维连接矩阵,R
ij
为第j个输入与第i个输出之间的连接;仅使用单一数值无法充分区分不同的关系,为使R
ij
容纳更多的关系特征信息,对其进行扩容,将R
i
由二维矩阵扩展为三维矩阵,前两维内容不变,增加的第三个维度容纳一个向量,使用该向量为不同命名实体间的关系,为便于后续命名实体部分与连接部分的融合,保证特征向量的维度相同,对其进行特征提取。
[0013]在上述方法实施例内容的基础上,本专利技术实施例中提供的面向金融风险知识图谱
的动态关系预测方法,第二层及第三层隐藏层连接部分的计算过程如式(4)所示:
[0014][0015]其中,R
i'<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向金融风险知识图谱的动态关系预测方法,其特征在于,包括:步骤S1,对数据进行采集、预处理和数据集划分;步骤S2,构建企业风险库,该库由领域专家使用七步法构建,包含企业基本信息、企业股权信息、企业财务信息和企业风险信息;步骤S3,构建企业风险知识图谱,基于企业风险库,使用自顶向下的方式构建企业风险知识图谱;步骤S4,知识图谱向量化,使用TransE模型对知识图谱所包含知识进行训练,采用训练所得到的TransE模型将三元组形式的知识转化为知识向量;步骤S5,获取隐藏层结构,依据库层次结构抽取领域知识图谱结构,该结构作为后续神经网络模型隐藏层的结构;步骤S6,构建KGANN模型,该模型包括输入层、隐藏层和输出层三部分;其中输入层负责将输入语料转化为词向量,将步骤S1得到的数据集作为输入,通过BERT模型将数据进行向量化为;隐藏层使用步骤S2所得到的知识图谱结构,包括隐藏层层数、每层神经元个数、命名实体向量和关系向量,隐藏层神经元包含命名实体向量,隐藏层之间的连接使用关系向量代替,在模型进行训练的过程中,隐藏层间的连接学习到语料所含的语义信息,进而在BP反向传参的过程中对关系向量进行调整,使其更加符合当前的语义信息;输出层包括全连接层和功能实现层,其中全连接层将隐藏层的高维空间降至低维空间,功能实现层负责对完形填空任务中空缺的词进行预测,并将概率最高的词输出;步骤S7,使用数据集对S6所构建的KGANN模型进行训练,为防止过拟合现象的发生,使用early_stopping策略进行训练,直至模型收敛达到最佳效果,保存该模型,后续关系预测时使用;步骤S8,对KGANN模型中的连接矩阵进行分析,计算不同关系与现实关系的语义相似度,通过校准后得到新的关系。2.根据权利要求1所述的面向金融风险知识图谱的动态关系预测方法,其特征在于,步骤S1中的数据采集包含一种检索策略,对不同企业分配不同的检索间隔时长,检索策略通过企业规模、企业关注度和企业风险三个维度将企业划分为I、II、III三类,每个维度的指标分为A、B、C三类,大型企业为第一A类,中型企业为第一B类,小微型企业为第一C类;企业关注度依据该企业在股吧帖子的阅读数量进行划分,阅读数量排名前30%的企业为第二A类、阅读数量排名在30%

70%之间的企业为第二B类、排名最后30%和股吧缺少对应企业信息的为第二C类;企业风险依据企查查所记录的自身风险、关联风险、历史风险和敏感舆情四者总数进行划分,当风险总数排名前30%的企业为第三A类、风险总数排名在30%

70%之间的企业为第三B类、排名最后30%和缺少对应企业信息的为第三C类;规模大的企业做出产权质押、实控人变更大额股份买卖行为时对金融系统产生的影响大,因此及时发现并识别;当企业关注度高时,有更多的投资者与该企业产生股权交易,此时对该企业信息进行及时更新,防范风险的发生以维护市场信心;当企业本身发生较多风险事件时加强监管,当企业规模、企业关注度和企业风险中两个及以上指标是A类时,则该企业为I类企业,当上述三个维度指标均是C类时,则该企业为III类企业,其余企业均为II类企业;I类企业、II类企业和III类企业的检索间隔时长分别为每小时、每天和每周。3.根据权利要求2所述的面向金融风险知识图谱的动态关系预测方法,其特征在于,步骤S5和S6深度学习中隐藏层的计算方式,其计算方式如式(1)所示:y
i
=f(E
i
+R
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,E
i
为第i个命名实体部分,R
i
为第i个连接部分,f(x)为激活函数,用来引入非线性因素,提高模型的学习能力和鲁棒性;E
i
的计算过程如式(2)所示:
其中,x
j
为输入的第j个词向量,n为E
i
层神经元的个数,e
i
为第i个神经元所包含的命名实体向量,为区分不同知识的重要程度,给每条知识赋予权重w
i
,此时的知识是按行存放,输入神经元时按列读取,因此将(e
i
*w
i

【专利技术属性】
技术研发人员:马费成洪亮张志剑刘政昊倪珍妮夏苏迪
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1