一种结构化数据的碰撞比对模型构建方法技术

技术编号:37426695 阅读:26 留言:0更新日期:2023-04-30 09:47
本发明专利技术公开一种结构化数据的碰撞比对模型构建方法,涉及数据挖掘技术领域;基于结构化数据来源方,接入比对数据资源,获取数据资源的相关信息,编排比对流程:筛选过滤比对数据资源,获得参与比对碰撞的数据集,配置比对碰撞规则,利用所述参与比对碰撞的数据集根据比对碰撞规则进行数据的比对碰撞,获得结果集,封装比对流程,对外仅公开比对碰撞规则对应参数及相应结果集,固化形成碰撞比对模型,利用碰撞比对模型进行结构化数据的比对碰撞。利用碰撞比对模型进行结构化数据的比对碰撞。利用碰撞比对模型进行结构化数据的比对碰撞。

【技术实现步骤摘要】
一种结构化数据的碰撞比对模型构建方法


[0001]本专利技术公开一种方法,涉及数据挖掘
,具体地说是一种结构化数据的碰撞比对模型构建方法。

技术介绍

[0002]20世纪90年代,随着数据库系统的广泛应用和网络技术的高速发展,数据库技术也进入一个全新的阶段,即从过去仅管理一些简单数据发展到管理由各种计算机所产生的图形、图像、音频、视频、电子档案、Web页面等多种类型的复杂数据,并且数据量也越来越大。数据库在给我们提供丰富信息的同时,也体现出明显的海量信息特征。信息爆炸时代,海量信息给人们带来许多负面影响,最主要的就是有效信息难以提炼,过多无用的信息必然会产生信息距离和有用知识的丢失。因此,人们迫切希望能对海量数据进行深入分析,发现并提取隐藏在其中的信息,以更好地利用这些数据。
[0003]但真正了解、掌握业务生产过程中有效数据的人员不多,能够将业务生产过程中的数据基于业务生产经验进行比对碰撞,进一步提炼出数据价值,再对业务进行辅助决策的方法更是少之又少,尤其缺乏业务生产经验转化为可复用的、简单易用的业务模型,使数据便于使用,并对业务进行辅助决策。

技术实现思路

[0004]本专利技术针对现有技术的问题,提供一种结构化数据的碰撞比对模型构建方法,基于MPP数据库等关系型数据库或支持SQL的计算引擎(如Spark、Flink等),将现有生产业务数据进行资源接入,对数据资源或上传的文件资源按照业务经验、思路进行流程编排、比对碰撞,对现有数据做进一步分析研判;将资源或比对碰撞规则参数化最终固化为比对碰撞模型,降低模型使用难度,对业务进行辅助决策。
[0005]本专利技术提出的具体方案是:
[0006]本专利技术提供一种结构化数据的碰撞比对模型构建方法,基于结构化数据来源方,接入比对数据资源,获取数据资源的相关信息,
[0007]编排比对流程:筛选过滤比对数据资源,获得参与比对碰撞的数据集,配置比对碰撞规则,利用所述参与比对碰撞的数据集根据比对碰撞规则进行数据的比对碰撞,获得结果集,
[0008]封装比对流程,对外仅公开比对碰撞规则对应参数及相应结果集,固化形成碰撞比对模型,
[0009]利用碰撞比对模型进行结构化数据的比对碰撞。
[0010]进一步,所述的一种结构化数据的碰撞比对模型构建方法中所述利用支持关系型数据库或支持SQL的计算引擎进行数据库连接信息配置,连接结构化数据来源方,接入比对数据资源。
[0011]进一步,所述的一种结构化数据的碰撞比对模型构建方法中所述接入比对数据资
源,获取数据资源的相关信息,包括:
[0012]根据结构化数据来源方的数据表接入数据资源,获取数据资源的字段名、描述、类型、输入类型和关联字典信息。
[0013]进一步,所述的一种结构化数据的碰撞比对模型构建方法中所述所述编排比对流程,包括:
[0014]配置比对碰撞规则,所述比对碰撞规则包括结果集类型、关联条件和结果输出字段。
[0015]进一步,所述的一种结构化数据的碰撞比对模型构建方法中所述封装比对流程,对外公开比对碰撞规则对应参数及相应结果集,固化形成碰撞比对模型,包括:
[0016]将比对碰撞规则对应参数设置为动态可输入的参数,
[0017]设置指定模型输出,选择比对流程中关注的结果集作为碰撞比对模型的比对结果输出。
[0018]本专利技术还提供一种结构化数据的碰撞比对模型构建系统,包括资源采集模块、流程编排模块、封装模块和应用模块,
[0019]资源采集模块基于结构化数据来源方,接入比对数据资源,获取数据资源的相关信息,
[0020]流程编排模块编排比对流程:筛选过滤比对数据资源,获得参与比对碰撞的数据集,配置比对碰撞规则,利用所述参与比对碰撞的数据集根据比对碰撞规则进行数据的比对碰撞,获得结果集,
[0021]封装模块封装比对流程,对外仅公开比对碰撞规则对应参数及相应结果集,固化形成碰撞比对模型,
[0022]应用模块利用碰撞比对模型进行结构化数据的比对碰撞。
[0023]进一步,所述的一种结构化数据的碰撞比对模型构建系统中所述资源采集模块利用支持关系型数据库或支持SQL的计算引擎进行数据库连接信息配置,连接结构化数据来源方,接入比对数据资源。
[0024]进一步,所述的一种结构化数据的碰撞比对模型构建系统中所述资源采集模块接入比对数据资源,获取数据资源的相关信息,包括:
[0025]根据结构化数据来源方的数据表接入数据资源,获取数据资源的字段名、描述、类型、输入类型和关联字典信息。
[0026]进一步,所述的一种结构化数据的碰撞比对模型构建系统中所述流程编排模块编排比对流程,包括:
[0027]配置比对碰撞规则,所述比对碰撞规则包括结果集类型、关联条件和结果输出字段。
[0028]进一步,所述的一种结构化数据的碰撞比对模型构建系统中所述封装模块封装比对流程,对外公开比对碰撞规则对应参数及相应结果集,固化形成碰撞比对模型,包括:
[0029]将比对碰撞规则对应参数设置为动态可输入的参数,
[0030]设置指定模型输出,选择比对流程中关注的结果集作为碰撞比对模型的比对结果输出。
[0031]本专利技术的有益之处是:
[0032]本专利技术提供一种结构化数据的碰撞比对模型构建方法,将现有生产业务数据进行资源接入,对数据资源或上传的文件资源按照业务经验、思路进行流程编排、比对碰撞,对现有数据做进一步分析研判;将资源或比对碰撞规则参数化最终固化为比对碰撞模型,降低模型使用难度,对业务进行辅助决策,全面提升了数据应用工作效率,降低数据使用分析门槛。
附图说明
[0033]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0034]图1是本专利技术方法应用框架示意图。
[0035]图2是本专利技术方法中涉及的Greenplum数据库中旅客住宿信息表的界面示意图。
[0036]图3是本专利技术方法中涉及的Greenplum数据库中嫌疑人名单界面示意图。
具体实施方式
[0037]MPPMassive Parallel Processing,海量并行处理。
[0038]Greenplum关系型分布式数据库,在开源的PostgreSQL的基础上采用MPP架构,具有强大的大规模数据分析任务处理能力。
[0039]下面结合附图和具体实施例对本专利技术作进一步说明,以使本领域的技术人员可以更好地理解本专利技术并能予以实施,但所举实施例不作为对本专利技术的限定。
[0040]本专利技术提供一种结构化数据的碰撞比对模型构建方法,基于结构化数据来源方,接入比对数据资源,获取数据资源的相关信息,
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结构化数据的碰撞比对模型构建方法,其特征是基于结构化数据来源方,接入比对数据资源,获取数据资源的相关信息,编排比对流程:筛选过滤比对数据资源,获得参与比对碰撞的数据集,配置比对碰撞规则,利用所述参与比对碰撞的数据集根据比对碰撞规则进行数据的比对碰撞,获得结果集,封装比对流程,对外仅公开比对碰撞规则对应参数及相应结果集,固化形成碰撞比对模型,利用碰撞比对模型进行结构化数据的比对碰撞。2.根据权利要求1所述的一种结构化数据的碰撞比对模型构建方法,其特征是所述利用支持关系型数据库或支持SQL的计算引擎进行数据库连接信息配置,连接结构化数据来源方,接入比对数据资源。3.根据权利要求1所述的一种结构化数据的碰撞比对模型构建方法,其特征是所述接入比对数据资源,获取数据资源的相关信息,包括:根据结构化数据来源方的数据表接入数据资源,获取数据资源的字段名、描述、类型、输入类型和关联字典信息。4.根据权利要求1所述的一种结构化数据的碰撞比对模型构建方法,其特征是所述编排比对流程,包括:配置比对碰撞规则,所述比对碰撞规则包括结果集类型、关联条件和结果输出字段。5.根据权利要求1所述的一种结构化数据的碰撞比对模型构建方法,其特征是所述封装比对流程,对外公开比对碰撞规则对应参数及相应结果集,固化形成碰撞比对模型,包括:将比对碰撞规则对应参数设置为动态可输入的参数,设置指定模型输出,选择比对流程中关注的结果集作为碰撞比对模型的比对结果输出。6.一种结构化数据的碰撞比对模型构建系统,其特征是包括资源采集模块、流程编排模块、...

【专利技术属性】
技术研发人员:田浩胡焕钢李存冰路国隋
申请(专利权)人:浪潮软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1