一种缺失值的确定方法、装置及电子设备制造方法及图纸

技术编号:20865999 阅读:37 留言:0更新日期:2019-04-17 09:15
本发明专利技术提供了一种缺失值的确定方法、装置及电子设备,首先确定出与目标实体相似的其他实体,然后采用与存在数据缺失的目标实体相似的其他客户的实体参考向量的业务数据,来确定目标实体的缺失数据,减少由于人工确定缺失数据带来的降低数据可靠性的问题。

【技术实现步骤摘要】
一种缺失值的确定方法、装置及电子设备
本专利技术涉及数据处理领域,更具体的说,涉及一种缺失值的确定方法、装置及电子设备。
技术介绍
目前,银行在建立全行客户级的信用凭借模型时,需要对客户的交易数据、资产数据、客户信息等数据进行处理,但是在处理过程中,发现客户的数据存在缺失的问题。现有技术中,当出现客户的数据缺失问题时,采用人工确定缺失数据的方式,但这样会增加人为干涉,降低数据可靠性。
技术实现思路
有鉴于此,本专利技术提供一种缺失值的确定方法、装置及电子设备,以解决采用人工确定缺失数据的方式,增加人为干涉,降低数据可靠性的问题。为解决上述技术问题,本专利技术采用了如下技术方案:一种缺失值的确定方法,包括:确定存在数据缺失的目标实体的实体向量;所述实体向量为所述目标实体的向量表示;确定与所述实体向量相似的实体参考向量集合;所述实体参考向量集合中的实体参考向量与所述实体向量的相似度大于第一预设数值;基于所述实体参考集合中的实体参考向量的业务数据,确定所述目标实体的缺失数据。优选地,确定存在数据缺失的目标实体的实体向量,包括:获取知识图谱;所述知识图谱包括所述目标实体的三元组和多个实体样本的三元组;每一所述三元组包括头实体、尾实体、所述头实体和所述尾实体的事实性关系;随机设定每一所述三元组的向量组;所述向量组包括所述三元组中的头实体的初始实体向量、尾实体的初始实体向量以及事实性关系对应的向量矩阵;多次修改每一所述三元组的向量组中的至少一个数据,得到相应的三元组的多个负例向量组;基于每一所述三元组的向量组和负例向量组,确定存在数据缺失的目标实体的实体向量。优选地,基于每一所述三元组的向量组和负例向量组,确定存在数据缺失的目标实体的实体向量,包括:通过初始评分模型确定每一所述三元组的评分值;所述初始评分模型用于计算为每一所述三元组随机设定的向量组的准确度;基于每一所述三元组的评分值,计算所述初始评分模型的损失值;判断所述损失值是否小于第二预设数值;若不小于,调整每一所述三元组的向量组和负例向量组,并返回所述判断所述损失值是否小于第二预设数值这一步骤;若小于,将所述目标实体的三元组的向量组中对头实体的初始实体向量进行调整后的向量作为所述目标实体的实体向量。优选地,确定与所述实体向量相似的实体参考向量集合,包括:依据预设余弦相似度计算公式,计算所述实体向量与每一实体样本的实体向量的相似度;筛选出相似度大于所述第一预设数值的实体向量,并组成所述实体参考向量集合。优选地,基于所述实体参考集合中的实体参考向量的业务数据,确定所述目标实体的缺失数据,包括:获取所述实体参考向量的业务数据中与所述缺失数据相应的参考数据;若所述缺失数据为数值型数据,将每一所述实体参考向量对应的参考数据与相应的相似度的乘积之和作为所述目标实体的缺失数据;若所述缺失数据为类别型数据,将所有的所述实体参考向量对应的参考数据中出现次数最多的参考数据作为所述目标实体的缺失数据。一种缺失值的确定装置,包括:向量确定模块,用于确定存在数据缺失的目标实体的实体向量;所述实体向量为所述目标实体的向量表示;集合确定模块,用于确定与所述实体向量相似的实体参考向量集合;所述实体参考向量集合中的实体参考向量与所述实体向量的相似度大于第一预设数值;数据确定模块,用于基于所述实体参考集合中的实体参考向量的业务数据,确定所述目标实体的缺失数据。优选地,所述向量确定模块包括:图谱获取子模块,用于获取知识图谱;所述知识图谱包括所述目标实体的三元组和多个实体样本的三元组;每一所述三元组包括头实体、尾实体、所述头实体和所述尾实体的事实性关系;向量组设定子模块,用于随机设定每一所述三元组的向量组;所述向量组包括所述三元组中的头实体的初始实体向量、尾实体的初始实体向量以及事实性关系对应的向量矩阵;数据修改子模块,用于多次修改每一所述三元组的向量组中的至少一个数据,得到相应的三元组的多个负例向量组;向量确定子模块,用于基于每一所述三元组的向量组和负例向量组,确定存在数据缺失的目标实体的实体向量。优选地,所述向量确定子模块包括:分值确定单元,用于通过初始评分模型确定每一所述三元组的评分值;所述初始评分模型用于计算为每一所述三元组随机设定的向量组的准确度;数值计算单元,用于基于每一所述三元组的评分值,计算所述初始评分模型的损失值;判断单元,用于判断所述损失值是否小于第二预设数值;调整单元,用于若不小于,调整每一所述三元组的向量组和负例向量组;所述判断单元,还用于在调整单元调整每一所述三元组的向量组和负例向量组之后,判断所述损失值是否小于第二预设数值;向量确定单元,用于若小于,将所述目标实体的三元组的向量组中对头实体的初始实体向量进行调整后的向量作为所述目标实体的实体向量。优选地,所述集合确定模块包括:相似度计算子模块,用于依据预设余弦相似度计算公式,计算所述实体向量与每一实体样本的实体向量的相似度;筛选子模块,用于筛选出相似度大于所述第一预设数值的实体向量,并组成所述实体参考向量集合。优选地,所述数据确定模块包括:数据获取子模块,用于获取所述实体参考向量的业务数据中与所述缺失数据相应的参考数据;第一确定子模块,用于若所述缺失数据为数值型数据,将每一所述实体参考向量对应的参考数据与相应的相似度的乘积之和作为所述目标实体的缺失数据;第二确定子模块,用于若所述缺失数据为类别型数据,将所有的所述实体参考向量对应的参考数据中出现次数最多的参考数据作为所述目标实体的缺失数据。一种电子设备,包括:存储器和处理器;其中,所述存储器用于存储程序;处理器调用程序并用于:确定存在数据缺失的目标实体的实体向量;所述实体向量为所述目标实体的向量表示;确定与所述实体向量相似的实体参考向量集合;所述实体参考向量集合中的实体参考向量与所述实体向量的相似度大于第一预设数值;基于所述实体参考集合中的实体参考向量的业务数据,确定所述目标实体的缺失数据。相较于现有技术,本专利技术具有以下有益效果:本专利技术提供了一种缺失值的确定方法、装置及电子设备,首先确定出与目标实体相似的其他实体,然后采用与存在数据缺失的目标实体相似的其他客户的实体参考向量的业务数据,来确定目标实体的缺失数据,减少由于人工确定缺失数据带来的降低数据可靠性的问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例提供的一种缺失值的确定方法的方法流程图;图2为本专利技术实施例提供的另一种缺失值的确定方法的方法流程图;图3为本专利技术实施例提供的再一种缺失值的确定方法的方法流程图;图4为本专利技术实施例提供的又一种缺失值的确定方法的方法流程图;图5为本专利技术实施例提供的第五种缺失值的确定方法的方法流程图;图6为本专利技术实施例提供的一种缺失值的确定装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出本文档来自技高网...

【技术保护点】
1.一种缺失值的确定方法,其特征在于,包括:确定存在数据缺失的目标实体的实体向量;所述实体向量为所述目标实体的向量表示;确定与所述实体向量相似的实体参考向量集合;所述实体参考向量集合中的实体参考向量与所述实体向量的相似度大于第一预设数值;基于所述实体参考集合中的实体参考向量的业务数据,确定所述目标实体的缺失数据。

【技术特征摘要】
1.一种缺失值的确定方法,其特征在于,包括:确定存在数据缺失的目标实体的实体向量;所述实体向量为所述目标实体的向量表示;确定与所述实体向量相似的实体参考向量集合;所述实体参考向量集合中的实体参考向量与所述实体向量的相似度大于第一预设数值;基于所述实体参考集合中的实体参考向量的业务数据,确定所述目标实体的缺失数据。2.根据权利要求1所述的确定方法,其特征在于,确定存在数据缺失的目标实体的实体向量,包括:获取知识图谱;所述知识图谱包括所述目标实体的三元组和多个实体样本的三元组;每一所述三元组包括头实体、尾实体、所述头实体和所述尾实体的事实性关系;随机设定每一所述三元组的向量组;所述向量组包括所述三元组中的头实体的初始实体向量、尾实体的初始实体向量以及事实性关系对应的向量矩阵;多次修改每一所述三元组的向量组中的至少一个数据,得到相应的三元组的多个负例向量组;基于每一所述三元组的向量组和负例向量组,确定存在数据缺失的目标实体的实体向量。3.根据权利要求2所述的确定方法,其特征在于,基于每一所述三元组的向量组和负例向量组,确定存在数据缺失的目标实体的实体向量,包括:通过初始评分模型确定每一所述三元组的评分值;所述初始评分模型用于计算为每一所述三元组随机设定的向量组的准确度;基于每一所述三元组的评分值,计算所述初始评分模型的损失值;判断所述损失值是否小于第二预设数值;若不小于,调整每一所述三元组的向量组和负例向量组,并返回所述判断所述损失值是否小于第二预设数值这一步骤;若小于,将所述目标实体的三元组的向量组中对头实体的初始实体向量进行调整后的向量作为所述目标实体的实体向量。4.根据权利要求3所述的确定方法,其特征在于,确定与所述实体向量相似的实体参考向量集合,包括:依据预设余弦相似度计算公式,计算所述实体向量与每一实体样本的实体向量的相似度;筛选出相似度大于所述第一预设数值的实体向量,并组成所述实体参考向量集合。5.根据权利要求1所述的确定方法,其特征在于,基于所述实体参考集合中的实体参考向量的业务数据,确定所述目标实体的缺失数据,包括:获取所述实体参考向量的业务数据中与所述缺失数据相应的参考数据;若所述缺失数据为数值型数据,将每一所述实体参考向量对应的参考数据与相应的相似度的乘积之和作为所述目标实体的缺失数据;若所述缺失数据为类别型数据,将所有的所述实体参考向量对应的参考数据中出现次数最多的参考数据作为所述目标实体的缺失数据。6.一种缺失值的确定装置,其特征在于,包括:向量确定模块,用于确定存在数据缺失的目标实体的实体向量;所述实体向量为所述目标实体的向量表示;集合确定模块,用于确定与所述实体向量相似的实体参考向量集合;所述实体参考向量集合中的实体参考向量与所述实体向量的相似度大于第一预设数值;数据确定模块,用...

【专利技术属性】
技术研发人员:郭佳敏吴慧袁帅郭帅
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1