一种不良资产经营领域下金融知识图谱的构建方法技术

技术编号:19647151 阅读:35 留言:0更新日期:2018-12-05 20:33
本发明专利技术提供一种不良资产经营领域下金融知识图谱的构建方法,作法如下:首先,对不良资产经营领域中的结构化文本进行三元组构建;其次,基于语义识别模型智能化抽取非结构化文本信息并构建三元组,实现非结构化文本的结构化抽取;进而,将合同中的本体、本体的属性和本体对的关系,与初始本体库信息进行数据融合,将多源异构数据进行融合,可视化展现与用户搜索相关的信息。通过上述步骤,本发明专利技术实现了知识推理、计算和补全,从而将全面、真实、有效的信息可视化的呈现给业务专家,用以解决不良资产经营领域企业和从业人员在开展业务时缺乏风控决策支持的问题。

A Method of Constructing Financial Knowledge Map in the Field of Non-performing Assets Management

The invention provides a method for constructing financial knowledge atlas in the field of non-performing assets management, which is as follows: firstly, the structured text in the field of non-performing assets management is constructed by triple construction; secondly, the non-structured text information is extracted intelligently based on semantic recognition model and the triple is constructed to realize the non-structured text. Structural extraction; and then, the relationship between ontology, ontology attributes and ontology pairs in the contract is fused with the initial ontology database information, and multi-source heterogeneous data is fused to visualize the information related to user search. Through the above steps, the invention realizes knowledge reasoning, calculation and completion, thus presenting comprehensive, real and effective information visually to business experts, so as to solve the problem that enterprises and practitioners in the field of non-performing assets management lack the support of wind control decision-making when they carry out business.

【技术实现步骤摘要】
一种不良资产经营领域下金融知识图谱的构建方法
本专利技术提供一种不良资产经营领域下金融知识图谱的构建方法,属于金融领域技术。
技术介绍
不良资产经营领域包括不良资产包的收购和处置,涉及到对不良资产包的估值定价和多元化处置方法。随着数据时代的到来,在不良资产经营领域中业务人员能更加便利地获取数据信息,然而业务人员从海量的数据信息中获取高质量、高要求、高精准的信息仍然需要花费大量的时间和精力,工作量犹如大海捞针。上述情况不仅降低了业务人员的工作效率,还对有可能因为信息的不完全性使公司承担投资风险。基于这种现状,亟需建立不良资产经营领域内的金融知识图谱,实现对不良资产等金融领域下的知识管理,并结合业务规则高效地辅助业务人员开展信息穿透、风险预警等风险防控措施,并对相关业务进行辅助分析决策,提高工作效率。知识图谱的建立涉及多个领域,包括自然语言处理、图论、复杂网络、深度学习等。金融领域内的知识图谱不仅仅涉及上述领域内容,还需要借助专家的知识储备,将业务专家的思考逻辑转化成知识图谱中的本体表达逻辑,增加了知识图谱的构建难度。本文借鉴医学领域知识图谱建立的成功经验,提出一种不良资产经营领域内的金融知识图谱构建方法,实现对内部数据的智能化抽取以及对多源异构数据的智能化融合,并基于业务专家的业务规则以及逻辑,实现知识推理、计算、补全,从而将全面、真实、有效的信息可视化的呈现给业务专家,从而解决不良资产经营领域企业和从业人员,在开展业务时缺乏风控决策支持的问题。
技术实现思路
(一)本专利技术的目的本专利技术的目的在于提供一种不良资产经营领域下金融知识图谱的构建方法,实现对不良资产领域的知识收纳、推理。(二)本专利技术的技术方案本专利技术一种不良资产经营领域下金融知识图谱的构建方法,其步骤如下:步骤一、对不良资产经营领域中的结构化数据进行梳理,利用有效信息整理出不良资产经营领域中的本体、本体属性、关系、关系属性,形成金融知识图谱词典,进而利用映射文件将数据库映射成三元组形式的资源描述框架文件,记为RDF文件,为构建的初始本体库;步骤二、以合同文本为例智能化抽取三元组,对不良资产经营领域中的合同进行分词处理,并利用特定合同模板对分词处理之后的词汇进行字符串识别,将识别之后的词汇内容作为候选实体;利用语义识别模型对候选实体进行筛选,获取实体位置、实体的属性、实体与实体之间的关系,通过实体内容和实体属性构建该实体的特征向量,并利用该向量与本体库进行匹配,确定该实体的所属本体;步骤三、根据本体内容和时间项并结合金融知识图谱词典,对初始本体库中的本体类和本体属性、本体关系、关系属性进行融合,并将所有信息作为历史数据进行存储,以便进行知识推理、知识计算、知识补全;步骤四、对于合并后的三元组本体库,对于用户输入的特定信息,使用RDF查询语言,记为sparql,将其转化为关系查询语句查询三元组本体库,并返回相关信息;然后,将查询到的三元组信息进行可视化操作,其中可视化工具利用数据驱动文档的浏览器编程语言框架,记为d3.js,生成动态关系图;通过以上步骤,本专利技术提供了不良资产领域下的金融知识图谱构建方法,通过对结构数据的三元组构建、非结构数据的结构化提取、多源异构数据的融合,实现了知识推理、计算、补全,从而将全面、真实、有效的信息可视化的呈现给业务专家,从而解决不良资产经营领域企业和从业人员,在开展业务时缺乏风控决策支持的问题。其中,在步骤一中所述的“结构化数据”,是指在甲骨文数据库,记为Oracle数据库,存储的表结构数据;有效信息,是指构建不良资产领域的金融知识图谱相关信息,包括:公司基本数据、公司关联数据、公司族谱数据、个人任职数据等。其中,在步骤二中所述的“抽取三元组”,其建立的过程如下:首先,合同文本筛选为Word文本,对于其他格式的文本类型,需要先利用文件转化工具转化为Word文本,若转化不成功,则放弃该文本;其次,利用结巴分词工具对Word文本进行分词,分词模式为:全切词+新词发现+自定义词袋;特定的合同模板包括债转股合同、债权转让合同等合同模板类型;所述的“语义识别模型”,是指根据业务规则以及上下文语义进行候选实体判断,获取实体位置、实体属性、实体间的关系。其中,在步骤三中提到的“融合”,具体是指在得到合同中的本体信息后,为了将合同中的本体和金融知识图谱词典进行逐一对比,若初始本体库中的本体类中不包含合同中的本体,则对初始本体库中的本体类进行更新,添加新的合同本体,其中合同中本体的属性作为更新后本体库的本体属性;若本体库中的本体类包含合同中的本体,则对初始本体库中的本体类进行更新,根据时间属性对本体中相同的属性,选择最近时间内的属性值;若本体对在初始本体库中不存在该关系,则将合同中的本体对关系添加到初始本体库中,合同中本体对关系的属性为初始本体库中关系的属性;若本体对在初始本体库中存在该关系,则根据合同中的本体对关系中时间属性和初始本体库中的时间属性对比,选择最近时间内的属性值,并将另外的属性作为历史属性放入到历史本体库中。(三)本专利技术的优点及功效本专利技术一种不良资产经营领域内的金融知识图谱构建方法,与现有技术相比,其优点及功效在于:(1)相比于传统的数据库关联查询,本专利技术利用自然语言处理技术,智能化、高效化地实现了知识推理功能,提高了查询效率,增加了业务人员的办事效率;(2)通过将结构化数据和非结构化数据融合,降低了人员在多个数据源信息搜索效率,降低了业务人员的信息获取不充分的风险;(3)三元组的数据存储格式为知识推理、计算、补全提供了数据基础,实现了数据的全面展示,为业务人员的信息推理提供强有力的数据支持。附图说明通过阅读下文优选实施方案的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于显示出优选实施方案,而并不认为是对本专利技术的限制,而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1是本专利技术所述的构建方法流程图。图2是本专利技术提供的一种具体的金融知识图谱的架构实施例流程图。图3是本专利技术提供的本体及本体关系示意图。图4是本专利技术提供的一种单体查询实例。图5是本专利技术提供的一种关联关系实例。具体实施方式下面将结合本专利技术中的附图,对本专利技术的技术方案进行清楚完整地描述,显然,所描述的案例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供了一种不良资产经营领域下金融知识图谱的构建方法,并结合实例详细说明,如图1所示,包括如下步骤:步骤一、在对不良资产经营领域中结构化数据进行梳理时,先利用有效信息整理出不良资产经营领域中的本体、本体属性、关系、关系属性,形成金融知识图谱词典,进而利用mapping文件将数据库映射成三元组形式的RDF文件,得到构建的初始本体库;步骤二、以合同文本为例智能化抽取三元组,对不良资产经营领域中的合同进行分词处理,并利用特定合同模板对分词处理之后的词汇进行字符串识别,将识别之后的词汇内容作为候选实体;利用语义识别模型对候选实体进行筛选,获取实体位置、实体的属性、实体与实体之间的关系,通过实体内容和实体属性构建该实体的特征向量,并利用该向量与本体库进行匹配,确定该本文档来自技高网...

【技术保护点】
1.一种不良资产经营领域下金融知识图谱的构建方法,其特征在于:其步骤如下:步骤一、对不良资产经营领域中的结构化数据进行梳理,利用有效信息整理出不良资产经营领域中的本体、本体属性、关系、关系属性,形成金融知识图谱词典,进而利用映射文件将数据库映射成三元组形式的资源描述框架文件,记为RDF文件,为构建的初始本体库;步骤二、以合同文本为例智能化抽取三元组,对不良资产经营领域中的合同进行分词处理,并利用特定合同模板对分词处理之后的词汇进行字符串识别,将识别之后的词汇内容作为候选实体;利用语义识别模型对候选实体进行筛选,获取实体位置、实体的属性、实体与实体之间的关系,通过实体内容和实体属性构建该实体的特征向量,并利用该向量与本体库进行匹配,确定该实体的所属本体;步骤三、根据本体内容和时间项并结合金融知识图谱词典,对初始本体库中的本体类和本体属性、本体关系、关系属性进行融合,并将所有信息作为历史数据进行存储,以便进行知识推理、知识计算和知识补全;步骤四、对于合并后的三元组本体库,对于用户输入的特定信息,使用RDF查询语言,记为sparql,将其转化为关系查询语句查询三元组本体库,并返回相关信息;然后,将查询到的三元组信息进行可视化操作,其中可视化工具利用数据驱动文档的浏览器编程语言框架,记为d3.js,生成动态关系图;通过以上步骤,本专利技术提供了不良资产领域下金融知识图的谱构建方法,通过对结构数据的三元组构建、非结构数据的结构化提取、多源异构数据的融合,实现了知识推理、计算和补全,从而将全面、真实、有效的信息可视化的呈现给业务专家,从而解决不良资产经营领域企业和从业人员,在开展业务时缺乏风控决策支持的问题。...

【技术特征摘要】
1.一种不良资产经营领域下金融知识图谱的构建方法,其特征在于:其步骤如下:步骤一、对不良资产经营领域中的结构化数据进行梳理,利用有效信息整理出不良资产经营领域中的本体、本体属性、关系、关系属性,形成金融知识图谱词典,进而利用映射文件将数据库映射成三元组形式的资源描述框架文件,记为RDF文件,为构建的初始本体库;步骤二、以合同文本为例智能化抽取三元组,对不良资产经营领域中的合同进行分词处理,并利用特定合同模板对分词处理之后的词汇进行字符串识别,将识别之后的词汇内容作为候选实体;利用语义识别模型对候选实体进行筛选,获取实体位置、实体的属性、实体与实体之间的关系,通过实体内容和实体属性构建该实体的特征向量,并利用该向量与本体库进行匹配,确定该实体的所属本体;步骤三、根据本体内容和时间项并结合金融知识图谱词典,对初始本体库中的本体类和本体属性、本体关系、关系属性进行融合,并将所有信息作为历史数据进行存储,以便进行知识推理、知识计算和知识补全;步骤四、对于合并后的三元组本体库,对于用户输入的特定信息,使用RDF查询语言,记为sparql,将其转化为关系查询语句查询三元组本体库,并返回相关信息;然后,将查询到的三元组信息进行可视化操作,其中可视化工具利用数据驱动文档的浏览器编程语言框架,记为d3.js,生成动态关系图;通过以上步骤,本发明提供了不良资产领域下金融知识图的谱构建方法,通过对结构数据的三元组构建、非结构数据的结构化提取、多源异构数据的融合,实现了知识推理、计算和补全,从而将全面、真实、有效的信息可视化的呈现给业务专家,从而解决不良资产经营领域企业和从业人员,在开展业务时缺乏风控决策支持的问题。2.根据权利要求1所述的一种不良资产经营领域下金融知识图谱的构建方法,其特...

【专利技术属性】
技术研发人员:后其林钟丽莉万谊强路世伦孙永欣仵伟强
申请(专利权)人:华融融通北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1