数据字段处理方法、装置、设备、介质和程序产品制造方法及图纸

技术编号:37668657 阅读:12 留言:0更新日期:2023-05-26 04:29
本发明专利技术实施例涉及大数据智能分析技术领域,公开了一种数据字段处理方法、装置、设备、介质和程序产品,其中,方法包括:对预设数据字段集合中数据字段的重要性进行分析,得到各数据字段的重要性指数;基于所述重要性指数对所述预设数据字段集合中的数据字段进行聚类分析,得到多个字段聚类结果;针对各所述字段聚类结果进行同义数据字段分析与合并,得到目标数据字段处理结果。本实施例技术方案解决了外部接入数据字段存在大量重复与冗余的问题,可以减少数据字段的冗余,提高外部数据的存储效率和使用效率。率和使用效率。率和使用效率。

【技术实现步骤摘要】
数据字段处理方法、装置、设备、介质和程序产品


[0001]本专利技术实施例涉及大数据智能分析
,尤其涉及一种数据字段处理方法、装置、设备、介质和程序产品。

技术介绍

[0002]在一些业务主体进行业务处理的过程中,会通过外部数据接口从除本业务主体之外的外部数据源获取大量的数据。随着业务主体的业务发展需求,通常,接入的外部数据源以及数据接口数量是日益增多的。
[0003]但是,由于不同数据源提供数据服务的标准各不相同,在数据量多的情况下,会导致一些不同的命名但本质上高度相似的字段或者服务不能被识别,以及会导致大量的数据冗余与重复。

技术实现思路

[0004]本专利技术实施例提供了数据字段处理方法、装置、设备、介质和程序产品,可以对大量的数据字段进行整合,减少数据字段的冗余与重复,提高外部数据的存储效率和使用效率。
[0005]第一方面,本专利技术实施例提供了一种数据字段处理方法,该方法包括:
[0006]对预设数据字段集合中数据字段的重要性进行分析,得到各数据字段的重要性指数;
[0007]基于所述重要性指数对所述预设数据字段集合中的数据字段进行聚类分析,得到多个字段聚类结果;
[0008]针对各所述字段聚类结果进行同义数据字段分析与合并,得到目标数据字段处理结果。
[0009]第二方面,本专利技术实施例提供了一种数据字段处理装置,该装置包括:
[0010]字段分析模块,用于对预设数据字段集合中数据字段的重要性进行分析,得到各数据字段的重要性指数;
[0011]字段聚类模块,用于基于所述重要性指数对所述预设数据字段集合中的数据字段进行聚类分析,得到多个字段聚类结果;
[0012]字段合并处理模块,用于针对各所述字段聚类结果进行同义数据字段分析与合并,得到目标数据字段处理结果。
[0013]第三方面,本专利技术实施例还提供了一种计算机设备,所述计算机设备包括:
[0014]一个或多个处理器;
[0015]存储器,用于存储一个或多个程序;
[0016]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任意实施例所提供的数据字段处理方法。
[0017]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机
程序,该程序被处理器执行时实现如本专利技术任意实施例所提供的数据字段处理方法。
[0018]第五方面,本专利技术实施例还提供了一种计算机程序产品,其上存储有计算机程序,该计算机程序被处理器执行时实现本专利技术任意实施例所提供的数据字段处理方法。
[0019]上述专利技术中的实施例具有如下优点或有益效果:
[0020]本专利技术实施例,通过对预设数据字段集合中数据字段的重要性进行分析,得到各数据字段的重要性指数;基于所述重要性指数对所述预设数据字段集合中的数据字段进行聚类分析,得到多个字段聚类结果,即将相同业务场景以及重要程度接近的数据字段聚为一类;再针对各字段聚类结果进行同义数据字段分析与合并,将同类别的字段中语义相同的字段进行统一表示,得到目标数据字段处理结果,从而降低数据字段的冗余与重复。本实施例技术方案解决了外部接入数据字段存在大量重复与冗余的问题,可以减少数据字段的冗余,提高外部数据的存储效率和使用效率。
[0021]附图说明
[0022]图1是本专利技术实施例提供的一种数据字段处理方法的流程图;
[0023]图2是本专利技术实施例提供的一种数据字段处理方法的流程图;
[0024]图3是本专利技术实施例提供的一种数据字段处理装置的结构示意图;
[0025]图4是本专利技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0026]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0027]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本专利技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
[0028]图1为本专利技术实施例提供的一种数据字段处理方法的流程示意图,本实施例可适用于从外部数据源接入大量数据时,对接入数据的数据字段进行处理,优化数据的存储于使用的场景。该方法可以由数据字段处理装置执行,该装置可以由软件和/或硬件的方式来实现,集成于具有应用开发功能的计算机设备中。
[0029]如图1所示,数据字段处理方法包括以下步骤:
[0030]S110、对预设数据字段集合中数据字段的重要性进行分析,得到各数据字段的重要性指数。
[0031]其中,预设数据字段集合是对有外接数据需求的业务主体的全部外接数据接口的全部数据的数据字段进行抽取确定的一个数据字段集合,是需要进行数据字段整合处理的对象。
[0032]一个业务主体根据业务的需要通常会有多个外部数据接口,以连接多个不同的数据源,获取不同业务领域范畴内的数据。从而每一个数据字段均有其对应的关联外部数据
接口。进一步的,可以通过对预设数据字段集合中数据字段的关联的外部数据接口、字段调用信息,对各所述数据字段的词频

逆文本频率指数进行分析,得到各所述数据字段的重要性指数。其中,词频

逆文本频率指数(Term Frequency

inverse Document Frequency,TF

IDF)是一种针对关键词的统计分析方法,用于评估一个词对一个文件集或者一个语料库的重要程度。一个词的重要程度跟它在文章中出现的次数成正比,跟它在语料库出现的次数成反比。这种计算方式能有效避免常用词对关键词的影响,提高了关键词与文章之间的相关性。其中,TF指的是某词在文档中出现的总次数,该指标通常会被归一化定义为TF=(某词在文档中出现的次数/文档的总词量),这样可以防止结果偏向过长的文档(同一个词语在长文档里通常会具有比短文档)。
[0033]具体的,计算预设数据字段集合中各数据字段的重要性指数的具体过程包括如下步骤:
[0034]第一步,将各数据字段在预设数据字段集合中出现的次数与包含各数据字段的接口的数量的比值作为各数据字段的词频。用公式可表示为:TF=数据字段出现的次数/包含该字段的数据接口的数量。
[0035]第二步,将预设数据字段集合关联的全部外部数据接口的数量与包含各数据字段的外部数据接口的数量的比值的以十为底的对数值作为各所述数据字段的第一重要程度系数(IDF1)。用公式可表示为:各数据字段的IDF1=lg(全部的外部数据接口数量/包含该字段的接口的数量)。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据字段处理方法,其特征在于,包括:对预设数据字段集合中数据字段的重要性进行分析,得到各数据字段的重要性指数;基于所述重要性指数对所述预设数据字段集合中的数据字段进行聚类分析,得到多个字段聚类结果;针对各所述字段聚类结果进行同义数据字段分析与合并,得到目标数据字段处理结果。2.根据权利要求1所述的方法,其特征在于,所述对预设数据字段集合中数据字段的重要性进行分析,得到各数据字段的重要性指数,包括:基于各所述数据字段关联的外部数据接口、字段调用信息,对各所述数据字段的词频

逆文本频率指数进行分析,得到各所述数据字段的重要性指数。3.根据权利要求2所述的方法,其特征在于,所述基于各所述数据字段关联的外部数据接口、字段调用信息,对各所述数据字段的词频

逆文本频率指数进行分析,得到各所述数据字段的重要性指数,包括:将各所述数据字段在所述预设数据字段集合中出现的次数与包含各所述数据字段的外部数据接口的数量的比值作为各所述数据字段的词频;将所述预设数据字段集合关联的全部外部数据接口的数量与包含各所述数据字段的外部数据接口的数量的比值的以十为底的对数值作为各所述数据字段的第一重要程度系数;将各所述数据字段的词频与对应的第一重要程度系数的乘积作为各所述数据字段的重要性指数。4.根据权利要求1所述的方法,其特征在于,所述基于所述重要性指数对所述预设数据字段集合中的数据字段进行聚类分析,得到多个字段聚类结果,包括:在全部所述数据字段中随机选取预设数量聚类中心,基于各所述数据字段的重要性指数进行K

means聚类,得到初始聚类结果;计算所述初始聚类结果中各类别内数据字段的重要性指数均值作为更新后聚类中心,并基于更新后聚类中心重新进行K

means聚类,迭代聚类过程直到得到目标聚类结果。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:响应于用户的聚类结果调整指令,对所述目标聚类结果进行调整,得到最终聚类结果。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:确定所述用户的聚类结果调整比例,根据所述调整比例确定所述最终聚类结果的有效性。7.根据权利要求1

6中任一所述的方法,其特征在于,所述针对各所述字段聚类结果进行同义数据字段分析与合...

【专利技术属性】
技术研发人员:陈映雪
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1