主数据识别方法、装置、设备及存储介质制造方法及图纸

技术编号:34406567 阅读:16 留言:0更新日期:2022-08-03 21:53
本发明专利技术涉及数据处理,提供一种主数据识别方法、装置、设备及存储介质。该方法获取多个场景对象中的字段特征;抽取所述字段特征中的目标特征;从多个预设数据源中获取与所述目标特征对应的特征数据进行聚类处理,得到多个数据群及每个数据群所对应的数据类别;基于所述多个数据群及所述数据类别生成主数据识别模型;当接收到主数据识别请求时,根据所述主数据识别请求获取待识别数据及待识别场景;将所述待识别数据及所述待识别场景输入至所述主数据识别模型中,得到所述待识别场景的场景主数据,提高了识别效率及识别效果。此外,本发明专利技术还涉及区块链技术,所述场景主数据可存储于区块链中。链中。链中。

【技术实现步骤摘要】
主数据识别方法、装置、设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种主数据识别方法、装置、设备及存储介质。

技术介绍

[0002]主数据是指企业中各业务部门共用的、具有高价值、高共享、高稳定、高质量特性的基础数据。随着数据化进程的不断推进,对主数据进行识别是非常有必要的。在现有的主数据识别方案中,主要依赖于专家对定性特征进行评分以确定出主数据,然而,这种方式缺乏客观性,导致识别效果不佳,此外,这种方式需要耗费大量时间人力成本,导致识别效率低下。

技术实现思路

[0003]鉴于以上内容,有必要提供一种主数据识别方法、装置、设备及存储介质,能够提高场景主数据的识别效果及识别效率。
[0004]一方面,本专利技术提出一种主数据识别方法,所述主数据识别方法包括:
[0005]获取多个场景对象中的字段特征;
[0006]抽取所述字段特征中的目标特征;
[0007]从多个预设数据源中获取与所述目标特征对应的特征数据进行聚类处理,得到多个数据群及每个数据群所对应的数据类别;
[0008]基于所述多个数据群及所述数据类别生成主数据识别模型;
[0009]当接收到主数据识别请求时,根据所述主数据识别请求获取待识别数据及待识别场景;
[0010]将所述待识别数据及所述待识别场景输入至所述主数据识别模型中,得到所述待识别场景的场景主数据。
[0011]根据本专利技术优选实施例,所述获取多个场景对象中的字段特征包括:
[0012]获取预设场景库中的所有场景作为所述多个场景对象;
[0013]从字段库中获取与每个场景对象对应的字段作为场景字段,并获取与所述场景对象所对应的特征作为所述字段特征。
[0014]根据本专利技术优选实施例,所述从多个预设数据源中获取与所述目标特征对应的特征数据进行聚类处理,得到多个数据群及每个数据群所对应的数据类别包括:
[0015]基于所述目标特征构建正则表达式;
[0016]基于所述正则表达式并行搜索所述多个预设数据源,得到多个初始数据;
[0017]对所述多个初始数据进行清洗,得到所述特征数据;
[0018]获取与所述多个场景对象对应的目标聚类模型;
[0019]基于所述目标聚类模型对所述特征数据进行聚类处理,得到所述多个数据群及每个数据群所对应的数据类别。
[0020]根据本专利技术优选实施例,在获取与所述多个场景对象对应的目标聚类模型之前,所述主数据识别方法还包括:
[0021]从所述多个场景对象中获取场景训练数据;
[0022]基于多个预设聚类算法构建的预设聚类模型对所述场景训练数据进行聚类处理,得到每个预设聚类模型的多个数据集,所述多个数据集包括第一数据集及第二数据集;
[0023]对于每个预设聚类模型,根据每个数据集中的任意两个数据构建第一协方差矩阵;
[0024]根据所述第一数据集中的任意数据及所述第二数据集中的任意数据构建第二协方差矩阵;
[0025]根据所述第一协方差矩阵及所述第二协方差矩阵生成每个预设聚类算法的算法分值;
[0026]将所述算法分值最大的预设聚类模型确定为初始聚类模型;
[0027]根据所述场景训练数据调整所述初始聚类模型,直至所述初始聚类模型的损失值不再降低,得到所述目标聚类模型。
[0028]根据本专利技术优选实施例,所述算法分值的计算公式为:
[0029][0030]其中,y是指所述算法分值,k是指所述多个数据集的个数,a
k
是指第k个数据集的第一协方差矩阵的元素总和,b
k
是指所述第一数据集与所述第k个数据集构建的第二协方差矩阵的元素总和。
[0031]根据本专利技术优选实施例,所述基于所述多个数据群及所述数据类别生成主数据识别模型包括:
[0032]对于每个数据群,识别该数据群中数据的来源系统;
[0033]统计所述来源系统的系统数量;
[0034]根据所述多个预设数据源的源数量及预设比例生成标准数量;
[0035]将大于所述标准数量的系统数量所对应的数据群确定为目标群;
[0036]将所述目标群所对应的数据类别确定为目标类别,并将与所述目标类别相同的字段特征所对应的场景对象确定为目标场景;
[0037]根据所述目标类别及所述目标场景构建所述主数据识别模型。
[0038]根据本专利技术优选实施例,所述根据所述主数据识别请求获取待识别数据及待识别场景包括:
[0039]解析所述主数据识别请求的报文,得到所述报文携带的数据信息;
[0040]从所述数据信息中提取指示场景的信息作为所述待识别场景,并从所述数据信息中提取指示路径的信息作为存储路径;
[0041]从所述存储路径中获取所有数据作为所述待识别数据。
[0042]另一方面,本专利技术还提出一种主数据识别装置,所述主数据识别装置包括:
[0043]获取单元,用于获取多个场景对象中的字段特征;
[0044]抽取单元,用于抽取所述字段特征中的目标特征;
[0045]所述获取单元,还用于从多个预设数据源中获取与所述目标特征对应的特征数据
进行聚类处理,得到多个数据群及每个数据群所对应的数据类别;
[0046]生成单元,用于基于所述多个数据群及所述数据类别生成主数据识别模型;
[0047]所述获取单元,还用于当接收到主数据识别请求时,根据所述主数据识别请求获取待识别数据及待识别场景;
[0048]输入单元,用于将所述待识别数据及所述待识别场景输入至所述主数据识别模型中,得到所述待识别场景的场景主数据。
[0049]另一方面,本专利技术还提出一种电子设备,所述电子设备包括:
[0050]存储器,存储计算机可读指令;及
[0051]处理器,执行所述存储器中存储的计算机可读指令以实现所述主数据识别方法。
[0052]另一方面,本专利技术还提出一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现所述主数据识别方法。
[0053]由以上技术方案可以看出,本专利技术通过所述多个预设数据源能够全面的获取到所述特征数据进行聚类,从而有利于提高所述主数据识别模型的模型跨领域能力,同时通过对所述特征数据进行聚类处理,能够准确的将所述特征数据划分为多个数据群,进而根据所述多个数据群及所述数据类别训练生成所述主数据识别模型,能够提高所述主数据识别模型的识别准确性,进而利用所述主数据识别模型对所述待识别数据进行识别,提高所述场景主数据的准确性,另外,由于无需人为分析所述待识别数据,因此能够提高所述场景主数据的识别效率。
附图说明
[0054]图1是本专利技术主数据识别方法的较佳实施例的流程图。
[0055]图2是本专利技术主数据识别装置的较佳实施例的功能模块图。
[0056本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种主数据识别方法,其特征在于,所述主数据识别方法包括:获取多个场景对象中的字段特征;抽取所述字段特征中的目标特征;从多个预设数据源中获取与所述目标特征对应的特征数据进行聚类处理,得到多个数据群及每个数据群所对应的数据类别;基于所述多个数据群及所述数据类别生成主数据识别模型;当接收到主数据识别请求时,根据所述主数据识别请求获取待识别数据及待识别场景;将所述待识别数据及所述待识别场景输入至所述主数据识别模型中,得到所述待识别场景的场景主数据。2.如权利要求1所述的主数据识别方法,其特征在于,所述获取多个场景对象中的字段特征包括:获取预设场景库中的所有场景作为所述多个场景对象;从字段库中获取与每个场景对象对应的字段作为场景字段,并获取与所述场景对象所对应的特征作为所述字段特征。3.如权利要求1所述的主数据识别方法,其特征在于,所述从多个预设数据源中获取与所述目标特征对应的特征数据进行聚类处理,得到多个数据群及每个数据群所对应的数据类别包括:基于所述目标特征构建正则表达式;基于所述正则表达式并行搜索所述多个预设数据源,得到多个初始数据;对所述多个初始数据进行清洗,得到所述特征数据;获取与所述多个场景对象对应的目标聚类模型;基于所述目标聚类模型对所述特征数据进行聚类处理,得到所述多个数据群及每个数据群所对应的数据类别。4.如权利要求3所述的主数据识别方法,其特征在于,在获取与所述多个场景对象对应的目标聚类模型之前,所述主数据识别方法还包括:从所述多个场景对象中获取场景训练数据;基于多个预设聚类算法构建的预设聚类模型对所述场景训练数据进行聚类处理,得到每个预设聚类模型的多个数据集,所述多个数据集包括第一数据集及第二数据集;对于每个预设聚类模型,根据每个数据集中的任意两个数据构建第一协方差矩阵;根据所述第一数据集中的任意数据及所述第二数据集中的任意数据构建第二协方差矩阵;根据所述第一协方差矩阵及所述第二协方差矩阵生成每个预设聚类算法的算法分值;将所述算法分值最大的预设聚类模型确定为初始聚类模型;根据所述场景训练数据调整所述初始聚类模型,直至所述初始聚类模型的损失值不再降低,得到所述目标聚类模型。5.如权利要求4所述的主数据识别方法,其特征在于,所述算法分值的计算公式为:
其中,y...

【专利技术属性】
技术研发人员:李健荣曾庆华
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1