数据字段处理方法、装置、设备、介质和程序产品制造方法及图纸

技术编号:37668657 阅读:26 留言:0更新日期:2023-05-26 04:29
本发明专利技术实施例涉及大数据智能分析技术领域,公开了一种数据字段处理方法、装置、设备、介质和程序产品,其中,方法包括:对预设数据字段集合中数据字段的重要性进行分析,得到各数据字段的重要性指数;基于所述重要性指数对所述预设数据字段集合中的数据字段进行聚类分析,得到多个字段聚类结果;针对各所述字段聚类结果进行同义数据字段分析与合并,得到目标数据字段处理结果。本实施例技术方案解决了外部接入数据字段存在大量重复与冗余的问题,可以减少数据字段的冗余,提高外部数据的存储效率和使用效率。率和使用效率。率和使用效率。

【技术实现步骤摘要】
数据字段处理方法、装置、设备、介质和程序产品


[0001]本专利技术实施例涉及大数据智能分析
,尤其涉及一种数据字段处理方法、装置、设备、介质和程序产品。

技术介绍

[0002]在一些业务主体进行业务处理的过程中,会通过外部数据接口从除本业务主体之外的外部数据源获取大量的数据。随着业务主体的业务发展需求,通常,接入的外部数据源以及数据接口数量是日益增多的。
[0003]但是,由于不同数据源提供数据服务的标准各不相同,在数据量多的情况下,会导致一些不同的命名但本质上高度相似的字段或者服务不能被识别,以及会导致大量的数据冗余与重复。

技术实现思路

[0004]本专利技术实施例提供了数据字段处理方法、装置、设备、介质和程序产品,可以对大量的数据字段进行整合,减少数据字段的冗余与重复,提高外部数据的存储效率和使用效率。
[0005]第一方面,本专利技术实施例提供了一种数据字段处理方法,该方法包括:
[0006]对预设数据字段集合中数据字段的重要性进行分析,得到各数据字段的重要性指数;r/>[0007]基本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据字段处理方法,其特征在于,包括:对预设数据字段集合中数据字段的重要性进行分析,得到各数据字段的重要性指数;基于所述重要性指数对所述预设数据字段集合中的数据字段进行聚类分析,得到多个字段聚类结果;针对各所述字段聚类结果进行同义数据字段分析与合并,得到目标数据字段处理结果。2.根据权利要求1所述的方法,其特征在于,所述对预设数据字段集合中数据字段的重要性进行分析,得到各数据字段的重要性指数,包括:基于各所述数据字段关联的外部数据接口、字段调用信息,对各所述数据字段的词频

逆文本频率指数进行分析,得到各所述数据字段的重要性指数。3.根据权利要求2所述的方法,其特征在于,所述基于各所述数据字段关联的外部数据接口、字段调用信息,对各所述数据字段的词频

逆文本频率指数进行分析,得到各所述数据字段的重要性指数,包括:将各所述数据字段在所述预设数据字段集合中出现的次数与包含各所述数据字段的外部数据接口的数量的比值作为各所述数据字段的词频;将所述预设数据字段集合关联的全部外部数据接口的数量与包含各所述数据字段的外部数据接口的数量的比值的以十为底的对数值作为各所述数据字段的第一重要程度系数;将各所述数据字段的词频与对应的第一重要程度系数的乘积作为各所述数据字段的重要性指数。4.根据权利要求1所述的方法,其特征在于,所述基于所述重要性指数对所述预设数据字段集合中的数据字段进行聚类分析,得到多个字段聚类结果,包括:在全部所述数据字段中随机选取预设数量聚类中心,基于各所述数据字段的重要性指数进行K

means聚类,得到初始聚类结果;计算所述初始聚类结果中各类别内数据字段的重要性指数均值作为更新后聚类中心,并基于更新后聚类中心重新进行K

means聚类,迭代聚类过程直到得到目标聚类结果。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:响应于用户的聚类结果调整指令,对所述目标聚类结果进行调整,得到最终聚类结果。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:确定所述用户的聚类结果调整比例,根据所述调整比例确定所述最终聚类结果的有效性。7.根据权利要求1

6中任一所述的方法,其特征在于,所述针对各所述字段聚类结果进行同义数据字段分析与合...

【专利技术属性】
技术研发人员:陈映雪
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1