当前位置: 首页 > 专利查询>唐松专利>正文

一种基于知识图谱和图深度学习的金融信用风险评估方法技术

技术编号:25601292 阅读:76 留言:0更新日期:2020-09-11 23:58
本发明专利技术属于金融信用风险评估领域,具体公开了一种基于知识图谱和图深度学习的金融信用风险评估方法,包括如下步骤:获取用户历史信用数据;根据信用数据构建用户知识图谱;利用图神经网络对用户知识图谱进行图深度学习,得到知识图谱的特征;利用知识图谱的特征表征用户的信用特征;基于所述用户信用特征,通过风险评估模型对所述用户进行金融信用风险评估,并通过softmax函数判别用户是否存在风险。本发明专利技术采用知识图谱和图深度学习的方式对用户的金融信用风险进行评估,能够对用户历史信用数据中的结构化数据、半结构化数据和非结构化数据进行预处理、提取、分析,并将其作为评价用户金融信用的重要依据,提高评估质量,评估效率高。

【技术实现步骤摘要】
一种基于知识图谱和图深度学习的金融信用风险评估方法
本专利技术涉及金融信用风险评估相关领域,具体为一种基于知识图谱和图深度学习的金融信用风险评估方法。
技术介绍
21世纪以来,随着计算机技术的日新月异和数据挖掘技术的兴起,个人信用评估正朝着数据库化,系统化,高精度量化的方向发展。采用数据挖掘技术进行的信用评估研究目前逐渐被国内外学术机构和商业银行所重视。数据挖掘技术不但可以从客观数据出发,总结出规律,建立个人信用评分模型,通过定性和定量两个角度,更加全面、科学的进行个人信用评估;而且能够充分利用计算机的快速处理的特点,极大的加快整个信用评估的过程,缩短信贷决策的时间。
技术实现思路
本专利技术的目的在于提供一种基于知识图谱和图深度学习的金融信用风险评估方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于知识图谱和图深度学习的金融信用风险评估方法,包括如下步骤:S1:获取用户历史信用数据;S2:根据信用数据构建用户知识图谱;S3:利用图神经网络对用户知识图谱进行图深度学习,得到知识图谱的特征;S4:利用知识图谱的特征表征用户的信用特征;S5:基于所述用户信用特征,通过风险评估模型对所述用户进行金融信用风险评估,并通过softmax函数判别用户是否存在风险。作为本专利技术一种优选的技术方案,S1中历史信用数据包括结构化数据、半结构化数据和非结构化数据。作为本专利技术一种优选的技术方案,S2中具体包括:S21:对结构化数据、半结构化数据和非结构化数据进行处理预处理;S22:对预处理后的非结构化数据、半结构化和结构化信用数据进行知识抽取,并将抽取后的数据加入数据库;S23:对知识库进行知识融合,包括实体消歧、共指消解;S24:采用自底向上构建数据模型,完成结构化、网络化的知识表示;S25:根据已有的数据模型进行知识推理、知识发现,完成用户知识图谱的构建。作为本专利技术一种优选的技术方案,S21中数据预处理包括:S211:读取文本:获得字的部首的全集chars_set,bios_set,relations_set;S212:遍历训练数据:将每个句子中token_id,token,bio,relations,heads作为列表封装到该句子中;S213:遍历当前句子将样本数据id化,将句子中字列表embedding_ids,偏旁部首id的列表char_ids,实体标签的列表bio_ids,关系的列表scoringMatrixHeads封装到句子中;S214:处理句子id化的数据,使其在一个批量数据内每个句子的维度相等,已最长句子的维度作为最大维度,不足的填充0;上述token为句子中的字,relations为实体关系,heads为对应关系下标位置。作为本专利技术一种优选的技术方案,S22中对非结构化数据进行知识抽取包括:S221:从所述非结构化数据中基于相关度提取关键数据,相关度为其中,k(wi,wj)为数据wi与数据wj的相关度,tfid(wi)为wi的词频与逆向频率值,d为关于数据wi与数据wj关于词向量的欧式距离;S222:使用深度学习对提取的关键数据中的句子进行实体识别和关系抽取。作为本专利技术一种优选的技术方案,S22中对结构化数据进行知识抽取包括:使用D2R技术对半结构化数据进行转换处理,将数据转换为关联数据。作为本专利技术一种优选的技术方案,S22中对半结构化数据处理基于属性抽取、Ontolog信息抽取、开放信息抽取。作为本专利技术一种优选的技术方案,S23中对知识库进行知识融合,包括实体消歧、共指消解,实体消歧、共指消解用于判断知识库中的同名实体与之是否代表不同的含义,以及知识库中是否存在其他命名实体与之表示相同的含义,共指消解采用决策树算法确定实体共指消解的特征,并基于相似度值比较计算。作为本专利技术一种优选的技术方案,S25中知识推理为使用描述逻辑进行推理。作为本专利技术一种优选的技术方案,S3中具体包括:S31:利用DeepWalk算法对所述用户信用知识图谱图做图嵌入,获得知识图谱各节点和边的向量表征;S32:将所述各节点和边的向量表征输入图神经网络中训练,学习各节点的特征,得到用户节点的特征向量表征。作为本专利技术一种优选的技术方案,S5中风险评估模型是一个多分类模型,模型函数为softmax分类器模型输入用户信用特征,根据输出值大小判断风险等级。与现有技术相比,本专利技术的有益效果是:本专利技术采用知识图谱和图深度学习的方式对用户的金融信用风险进行评估,能够对用户历史信用数据中的结构化数据、半结构化数据和非结构化数据进行预处理、提取、分析,并将其作为评价用户金融信用的重要依据,提高评估质量,评估效率高,针对三种不同的数据采用不同的处理、提取方法,能有效的对数据中的关键数据进行提取,进一步提升处理的效率及识别率。具体实施方式下面对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1:本专利技术提供一种技术方案:一种基于知识图谱和图深度学习的金融信用风险评估方法,包括如下步骤:S1:获取用户历史信用数据;S2:根据信用数据构建用户知识图谱;S3:利用图神经网络对用户知识图谱进行图深度学习,得到知识图谱的特征;S4:利用知识图谱的特征表征用户的信用特征;S5:基于所述用户信用特征,通过风险评估模型对所述用户进行金融信用风险评估,并通过softmax函数判别用户是否存在风险。在本实施例中,S1中历史信用数据包括结构化数据、半结构化数据和非结构化数据。在本实施例中,S2中具体包括:S21:对结构化数据、半结构化数据和非结构化数据进行处理预处理;S22:对预处理后的非结构化数据、半结构化和结构化信用数据进行知识抽取,并将抽取后的数据加入数据库;S23:对知识库进行知识融合,包括实体消歧、共指消解;S24:采用自底向上构建数据模型,完成结构化、网络化的知识表示;S25:根据已有的数据模型进行知识推理、知识发现,完成用户知识图谱的构建。在本实施例中,S21中数据预处理包括:S211:读取文本:获得字的部首的全集chars_set,bios_set,relations_set;S212:遍历训练数据:将每个句子中token_id,token,bio,relations,heads作为列表封装到该句子中;S213:遍历当前句子将样本数据id化,将句子中字列表embedding_ids,偏旁部首id的列表char_ids,实体标签的列表bio_ids,关系的列表scoringMatrixHeads封装到句子中;S214:处理句子id化的数据,使其在一个批量数据内每个句子的维度相等,已最长句子的维度作为最大维度,不足的填充0;上本文档来自技高网...

【技术保护点】
1.一种基于知识图谱和图深度学习的金融信用风险评估方法,其特征在于,包括如下步骤:/nS1:获取用户历史信用数据;/nS2:根据信用数据构建用户知识图谱;/nS3:利用图神经网络对用户知识图谱进行图深度学习,得到知识图谱的特征;/nS4:利用知识图谱的特征表征用户的信用特征;/nS5:基于所述用户信用特征,通过风险评估模型对所述用户进行金融信用风险评估,并通过softmax函数判别用户是否存在风险。/n

【技术特征摘要】
1.一种基于知识图谱和图深度学习的金融信用风险评估方法,其特征在于,包括如下步骤:
S1:获取用户历史信用数据;
S2:根据信用数据构建用户知识图谱;
S3:利用图神经网络对用户知识图谱进行图深度学习,得到知识图谱的特征;
S4:利用知识图谱的特征表征用户的信用特征;
S5:基于所述用户信用特征,通过风险评估模型对所述用户进行金融信用风险评估,并通过softmax函数判别用户是否存在风险。


2.根据权利要求1所述的一种基于知识图谱和图深度学习的金融信用风险评估方法,其特征在于,所述S1中历史信用数据包括结构化数据、半结构化数据和非结构化数据。


3.根据权利要求1所述的一种基于知识图谱和图深度学习的金融信用风险评估方法,其特征在于,所述S2中具体包括:S21:对结构化数据、半结构化数据和非结构化数据进行处理预处理;S22:对预处理后的非结构化数据、半结构化和结构化信用数据进行知识抽取,并将抽取后的数据加入数据库;S23:对知识库进行知识融合,包括实体消歧、共指消解;S24:采用自底向上构建数据模型,完成结构化、网络化的知识表示;S25:根据已有的数据模型进行知识推理、知识发现,完成用户知识图谱的构建。


4.根据权利要求3所述的一种基于知识图谱和图深度学习的金融信用风险评估方法,其特征在于,所述S21中数据预处理包括:S211:读取文本:获得字的部首的全集chars_set,bios_set,relations_set;S212:遍历训练数据:将每个句子中token_id,token,bio,relations,heads作为列表封装到该句子中;S213:遍历当前句子将样本数据id化,将句子中字列表embedding_ids,偏旁部首id的列表char_ids,实体标签的列表bio_ids,关系的列表scoringMatri...

【专利技术属性】
技术研发人员:唐松黄锐
申请(专利权)人:唐松黄锐
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1