【技术实现步骤摘要】
多源外部数据整合方法、装置、设备及存储介质
[0001]本申请涉及数据处理
,尤其涉及一种多源外部数据整合方法
、
装置
、
设备及存储介质
。
技术介绍
[0002]在数字社会,数据要素作为基础性战略资源和关键性生产要素,在企业经营管理
、
战略决策中的价值愈发突显
。
近年来,数据服务商竞相发布各类优质数据产品,由于各家服务商在数据加工的逻辑
、
顺序和资源配置等方面的差异较大,导致各家服务商的同类数据产品在覆盖率
、
时效性
、
字段饱和度等方面各有优劣,进而使得数据使用方较难从多家服务商中选出能够同时满足多项应用需求的最佳数据源
。
因此,如何对多种来源的数据进行筛选整合成为数据处理领域研究的重要方向
。
[0003]目前针对同类数据的多源整合,多采用以单一数据源为主
、
其余数据源为辅的行级粒度整合模型,即以记录为整合单位
。
这种方法在一定程度上可以提升数据的覆盖率
、
时效性
。
[0004]但是,在以单一数据源为主
、
其余数据源为辅的整合模型中,整合后仅其余数据源可提供的字段空值率较高,整合后仅其余数据源可提供的字段空值率较高,且以单一来源为主的方式对共同字段的选源灵活度较低,较难充分挖掘和利用其余数据源的优势
。
技术实现思路
[0005] ...
【技术保护点】
【技术特征摘要】
1.
一种多源外部数据整合方法,其特征在于,所述多源外部数据整合方法包括:实时获取各数据源的源字段集和所述源字段集中各源字段各自的源字段值;根据所述源字段集的并集确定各所述数据源各自对应的标准化模型的标准字段集,和,整合模型的整合字段集;对各所述源字段值进行标准化处理以获得各所述标准字段集中各标准字段各自的标准值;基于各所述源字段集中共有的标识性字段生成所述整合模型和各所述标准化模型的唯一标识;基于所述唯一标识和所述整合字段集中各整合字段预设的选源配置,在各所述标准值中选择各所述整合字段各自的整合字段值,以将各所述数据源整合为所述整合模型
。2.
根据权利要求1所述的多源外部数据整合方法,其特征在于,所述选源配置包括:事前约定模型,所述事前约定模型包括:权重选源;所述在各所述标准值中选择各所述整合字段各自的整合字段值的步骤包括:若各所述整合字段中存在选源配置为权重选源的第一字段,则获取所述第一字段对应的各所述标准化模型各自的权重参数;若各所述权重参数中存在大于预设的权重阈值的目标权重,则确定所述目标权重对应的第一标准化模型;将所述第一标准化模型中所述第一字段对应的第一标准字段的标准值,作为所述第一字段的整合字段值
。3.
根据权利要求1所述的多源外部数据整合方法,其特征在于,所述事前约定模型还包括:辅助选源,所述辅助选源包括:先到先入;所述在各所述标准值中选择各所述整合字段各自的整合字段值的步骤还包括:若各所述整合字段中存在选源配置为先到先入的第二字段,则根据各所述标准化模型的最后更新时间确定第二标准化模型;将所述第二标准化模型中所述第二字段对应的第二标准字段的标准值,作为所述第二字段的整合字段值
。4.
根据权利要求3所述的多源外部数据整合方法,其特征在于,所述辅助选源包括:首个非空源;所述在各所述标准值中选择各所述整合字段各自的整合字段值的步骤还包括:若各所述整合字段中存在选源配置为首个非空源的第三字段,则确定各所述标准化模型中所述第三字段对应的第三标准字段;确定各所述标准化模型中所述第三标准字段的标准值不为空的各非空标准化模型;根据各所述非空标准化模型的最后更新时间确定第三标准化模型;将所述第三标准化模型中所述第三标准字段的标准值,作为所述第三字段的整合字段值
。5.
根据权利要求3所述的多源外部数据整合方法,其特征在于,所述辅助选源包括:指定数据源;所述在各所述标准值中选择各所述整合字段各自的整合字段值的步骤还包括:若各所述整合字段中存在选...
【专利技术属性】
技术研发人员:黎在万,
申请(专利权)人:招商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。