一种基于知识图谱的关联交易挖掘识别方法及装置制造方法及图纸

技术编号:24996270 阅读:32 留言:0更新日期:2020-07-24 17:58
本发明专利技术公开了一种基于知识图谱的关联交易挖掘方法及装置,涉及信息系统技术领域,包括以下步骤:S1:获取目标数据,清洗筛选出可信数据;S2:对所述可信数据进行实体抽取和关系抽取,将抽取后得到的实体和实体间对应关系导入图数据库,生成初步知识图谱;S3:从所述初步知识图谱中查找满足关联规则的实体对,将实体对之间的关联关系增加入S2中的所述图数据库,获得完善知识图谱;S4:通过图表示学习算法进一步增加关联关系,得到最终知识图谱;S5:利用所述最终知识图谱识别关联交易信息。本发明专利技术通过知识图谱的手段,有效增强了关联交易的识别效率且一定程度上通过其多维度的穿透能力识别隐藏的关联交易。

【技术实现步骤摘要】
一种基于知识图谱的关联交易挖掘识别方法及装置
本专利技术涉及信息系统
,尤其是涉及一种基于知识图谱的关联交易挖掘识别方法及装置。
技术介绍
关联交易是企业关联方之间的交易,它是公司运作中经常出现而又易于发生不公平结果的交易。在理想状态下,只要是企业集团正常经营和发展的需要,而且交易不损害其他方利益,关联交易则是一种正当的交易行为。然而,部分企业在利用关联交易降低交易成本,提高公司运行效率的同时,企业控股股东通过关联交易操纵利润、粉饰业绩、侵害中小股东利益。因此,关联交易的非良性滋长无论在规模、性质还是其外部危害,都警示我们需要在金融和经济安全的高度重新认识关联交易问题的严重性,识别关联交易以及如何有效地识别关联交易便成为交易行为中不容忽视的一环。然而,由于信息不对称、不共享和关联交易的复杂性、隐蔽性和强力的利益驱动,及时地识别关联交易并有效地予以管理和规范并不容易。现有手段下,识别关联交易主要依赖目标企业主动申报以及从工商信息等角度手工搜索,效率极低且很难有效识别被隐藏或粉饰的关联交易。通过知识图谱的手段,可有效增强关联交易的识别效率且一定程度上通过其多维度的穿透能力可识别隐藏的关联交易。
技术实现思路
有鉴于此,本专利技术旨在提供一种基于知识图谱的关联交易挖掘识别方法及装置,能够通过图谱中各关系识别双方是否存在可能的关联关系,并与客户交易相匹配,从而产生关联交易预警。根据本专利技术的第一方面,提供了一种基于知识图谱的关联交易挖掘识别方法,所述方法用于挖掘并识别关联交易,包括以下步骤:S1:获取目标数据,清洗筛选出可信数据;S2:对所述可信数据进行实体抽取和实体间对应关系抽取,将抽取后得到的实体和实体间对应关系导入图数据库,生成初步知识图谱;S3:从所述初步知识图谱中查找满足关联规则的节点对,将节点对之间的关联关系添入S2中的所述图数据库,获得完善知识图谱;S4:在所述完善知识图谱的基础上,通过图表示学习算法进一步增加关联关系,得到最终知识图谱;S5:利用所述最终知识图谱识别关联交易信息。进一步的,所述S1具体包括:S11:利用爬虫手段在网站上爬取所需信息,并结合内部信息,将得到的全部信息作为目标数据;S12:剔除目标数据中错误、重复及无关的信息,得到清洗后数据;S13:根据信息来源为清洗后数据中的每条信息设置权重系数,并计算得到每条信息的可信度;S14:设置置信阈值为正数,从清洗后数据中剔除可信度低于所述置信阈值的信息,将剩余信息作为可信数据。进一步的,所述信息来源包括多级别信息来源,信息来源的级别越高,为从中得到的信息设置的权重系数越大。进一步的,所述计算得到每条信息的可信度,具体包括:设来自信息来源I1,I2,…,In-1,In的信息的权重系数分别为ω1,ω2,…,ωn-1,ωn,所述权重系数为正数,n为正整数;取来自信息来源Ii的一条信息Xi,其中i=1,2,…,n-1,n,用来自其他信息来源Ik的与信息Xi有逻辑关系的信息Xk进行交叉验证,其中k≠i,k=1,2,…,n-1,n,交叉验证得到信息Xi又一次正确的概率为pk,则信息Xi的可信度C(Xi)表示为:C(Xi)=ωi*1+∑ωkpk。进一步的,所述交叉验证为将来自信息来源Ii的信息Xi与来自其他信息来源Ik的与信息Xi有逻辑关系的信息Xk相互比对,判断信息Xi中的内容是否正确。进一步的,所述S2具体包括:S21:对所述可信数据进行实体抽取和实体间对应关系抽取,利用抽取后得到的实体和实体间对应关系构建<实体,关系,实体>的三元组;S22:将S21中的三元组导入图数据库中,将实体生成为节点,并给节点赋予节点属性,将关系生成为对应节点间的关系,并给关系赋予关系属性,得到初步知识图谱。进一步的,所述S3具体包括:S31:查找满足关联规则的节点属性和关系属性,获取与节点属性对应的具有关联关系的节点对,并构建<节点,关联关系,节点>的三元组;S32:根据S31中的三元组,为图数据库中相应的节点对增加关联关系,获得完善知识图谱。进一步的,所述图表示学习算法,包括将知识图谱节点向量化表示后,输入机器学习模型进行分类。进一步的,所述S4具体包括:S41:利用DeepWalk算法将完善知识图谱中的节点映射到一个连续的低维向量空间中,得到节点向量;将任意两个节点向量拼接得到边向量;S42:取具有关联关系的两节点映射得到的两个节点向量拼接得到边向量,作为正样本;将确定不具有关联关系的任意两节点映射得到的两个节点向量拼接得到多个不满足关联关系的边向量,作为负样本;将所述正样本和所述负样本组成训练数据集;S43:基于优化算法,利用所述训练数据集构建分类器;S44:利用所述分类器识别所述训练数据集以外的边向量。进一步的,步骤S43中,所述优化算法为梯度下降算法,所述分类器为逻辑斯蒂回归分类器。根据被专利技术的第二方面,提供了一种基于知识图谱的关联交易挖掘识别系统,所述系统被配置为用于实现如本专利技术第一方面所述的方法,其特征在于,包括:数据获取模块,用于获得可信数据;知识图谱生成模块,用于将可信数据生成为初步知识图谱;知识图谱完善模块,用于完善生成的初步知识图谱,获得完善知识图谱;图表示学习模块,用于在完善知识图谱的基础上进一步增加关联关系,得到最终知识图谱;信息识别模块,用于识别关联交易信息。一种基于知识图谱的关联交易挖掘装置,包括:处理器和用于存储可执行指令的存储器;其中,所述处理器被配置为执行所述可执行指令,以执行如本专利技术第一方面所述的基于知识图谱的关联交易挖掘识别方法。一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如本专利技术第一方面所述的基于知识图谱的关联交易挖掘识别方法。相对于现有技术,本专利技术所述的一种基于知识图谱的关联交易挖掘识别方法及装置具有以下优势:本专利技术通过抓取企业的工商、舆情、投融资、经营动态等全维度数据,与银行内部的担保、交易、借贷等数据相互融合,并经过交叉验证后进行深层次的加工和应用生成知识图谱,随后应用多种方式对知识图谱进行完善和补全,建立了多维度的企业知识图谱。同时,通过知识图谱中各关系识别双方是否存在可能的关联关系,可有效增强关联交易的识别效率,在一定程度上减少对专家经验过度依赖,并通过其多维度的穿透能力识别隐藏的关联交易。附图说明构成本专利技术的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术实施例所述的基于知识图谱的关联交易挖掘识别方法的整体流程图;图2为本专利技术实施例所述的基于知识图谱的关联交易挖掘识别方法的知识图谱示意图;图3为本本文档来自技高网...

【技术保护点】
1.一种基于知识图谱的关联交易挖掘识别方法,所述方法用于挖掘并识别关联交易,其特征在于,包括以下步骤:/nS1:获取目标数据,清洗筛选出可信数据;/nS2:对所述可信数据进行实体抽取和实体间对应关系抽取,将抽取后得到的实体和实体间对应关系导入图数据库,生成初步知识图谱;/nS3:从所述初步知识图谱中查找满足关联规则的节点对,将节点对之间的关联关系添入S2中的所述图数据库,获得完善知识图谱;/nS4:在所述完善知识图谱的基础上,通过图表示学习算法进一步增加关联关系,得到最终知识图谱;/nS5:利用所述最终知识图谱识别关联交易信息。/n

【技术特征摘要】
1.一种基于知识图谱的关联交易挖掘识别方法,所述方法用于挖掘并识别关联交易,其特征在于,包括以下步骤:
S1:获取目标数据,清洗筛选出可信数据;
S2:对所述可信数据进行实体抽取和实体间对应关系抽取,将抽取后得到的实体和实体间对应关系导入图数据库,生成初步知识图谱;
S3:从所述初步知识图谱中查找满足关联规则的节点对,将节点对之间的关联关系添入S2中的所述图数据库,获得完善知识图谱;
S4:在所述完善知识图谱的基础上,通过图表示学习算法进一步增加关联关系,得到最终知识图谱;
S5:利用所述最终知识图谱识别关联交易信息。


2.根据权利要求1所述的一种基于知识图谱的关联交易挖掘识别方法,其特征在于,所述S1具体包括:
S11:利用爬虫手段在网站上爬取所需信息,并结合内部信息,将得到的全部信息作为目标数据;
S12:剔除目标数据中错误、重复及无关的信息,得到清洗后数据;
S13:根据信息来源为清洗后数据中的每条信息设置权重系数,并计算得到每条信息的可信度;
S14:设置置信阈值为正数,从清洗后数据中剔除可信度低于所述置信阈值的信息,将剩余信息作为可信数据。


3.根据权利要求2所述的一种基于知识图谱的关联交易挖掘识别方法,其特征在于,所述信息来源包括多级别信息来源,信息来源的级别越高,为从中得到的信息设置的权重系数越大。


4.根据权利要求3所述的一种基于知识图谱的关联交易挖掘识别方法,其特征在于,所述计算得到每条信息的可信度,具体包括:
设来自信息来源I1,I2,…,In-1,In的信息的权重系数分别为ω1,ω2,…,ωn-1,ωn,所述权重系数为正数,n为正整数;
取来自信息来源Ii的一条信息Xi,其中i=1,2,…,n-1,n,用来自其他信息来源Ik的与信息Xi有逻辑关系的信息Xk进行交叉验证,其中k≠i,k=1,2,…,n-1,n,交叉验证得到信息Xi又一次正确的概率为pk,则信息Xi的可信度C(Xi)表示为:
C(Xi)=ωi*1+∑ωkpk。


5.根据权利要求1所述的一种基于知识图谱的关联交易挖掘识别方法,其特征在于,所述S2具体包括:
S21:对所述可信数据进行实体抽取和实体间对应关系抽取,利用抽取后得...

【专利技术属性】
技术研发人员:李振宋璞刘恒赵兴莹秦培歌李勇辉
申请(专利权)人:民生科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1