The invention provides a method for constructing automatic association matching of data based on deep learning, which simulates the process of establishing matching association among extensive data in multiple domains manually, so that matching ability and accuracy can be improved continuously with the optimization of deep learning. Specifically, the feature observation values are established to abstract data entities and image them. The process includes feature extraction, automatic execution and automatic learning evolution. Its characteristics include the following steps: introducing multiple human association rules as feature observations into the deep learning model, and setting the criteria for judging the relationship between the usable range of data and the success of data; based on multiple core object tables, passing through core objects. Tables index other tables to establish strong or soft associations, and then output a result set of successful relationships, which includes associative tables, association rules and association matching. The result set is executed as a task on the corresponding platform or embedded in the mining and analysis task as a data processing step.
【技术实现步骤摘要】
一种基于深度学习的数据自动关联匹配的构建方法
本专利技术涉及一种基于深度学习的数据自动关联匹配的构建方法。
技术介绍
数据关联匹配是针对于不同来源、不同对象和不同格式的多源数据一种重要的处理过程,不同来源是因为数据从不同的业务系统产生,不同对象是因为不同的数据库和数据表存储的数据实体对象不一样(例如某些是人相关的,某些是企业相关的),不同格式是因为系统和业务管理的实际数据需求不一样,在大数据时代,很多场景下的数据都存在着上述特性,这样对进行组合的挖掘分析带来了很大障碍,数据的挖掘分析依赖于数据间的可关联性,无论是弱关联还是强关联,所以在对大规模具备上述特性的数据进行挖掘分析时,往往花费大量的人力物力在数据关联匹配的处理上。在多年对城市级政府数据进行运维服务的过程中,我们发现各种部门间的数据差异和不匹配问题十分严重,而在应用数据创造更大价值(包括构建应用和挖掘分析)上对于多领域数据的融合使用是必不可少的,所以在初期我们主要通过人工建立某些关联规则然后通过数据库操作实现,具体的步骤分为三步:一是需要先阅读和理解数据发现可匹配数据,二是需要在数以千计的数据表和数十万计的字段间逐个查看建立匹配规则,三是对匹配的结果进行校验时需要进行数据抽检,整个处理匹配过程耗时耗力,而且容易出错和出现遗漏,导致工作经常需要反复。深度学习是机器学习中一种基于对数据进行表征学习的方法。深度学习通过建立特征观测值对实体进行抽象,不断完善学习任务,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算 ...
【技术保护点】
1.一种基于深度学习的数据自动关联匹配的构建方法,建立特征观测值对数据实体进行抽象,抽像过程包括提取特征、自动执行、自动学习进化;其特征在于包括如下步骤:将多个人为关联规则作为特征观测值导入至深度学习模型,并设定数据的可用范围与成功关联系的判断标准;以多个核心对象表为基础,通过核心对象表来索引其它表来建立强关联或软关联,继而输出成功关系的结果集,所述结果集中包含有可关联表、关联规则和关联匹配度,该结果集作为一个任务在相应平台执行或嵌入到挖掘分析任务中作为数据处理步骤执行。
【技术特征摘要】
1.一种基于深度学习的数据自动关联匹配的构建方法,建立特征观测值对数据实体进行抽象,抽像过程包括提取特征、自动执行、自动学习进化;其特征在于包括如下步骤:将多个人为关联规则作为特征观测值导入至深度学习模型,并设定数据的可用范围与成功关联系的判断标准;以多个核心对象表为基础,通过核心对象表来索引其它表来建立强关联或软关联,继而输出成功关系的结果集,所述结果集中包含有可关联表、关联规则和关联匹配度,该结果集作为一个任务在相应平台执行或嵌入到挖掘分析任务中作为数据处理步骤执行。2.根据权利要求1所述的基于深度学习的数据自动关联匹配的构建方法,其特征在于:所述抽像过程基于非监督式或半监督式的特征学习和分层特征提取高效算法。3.根据权利要求2所述的基于深度学习的数据自动关联匹配的构建方法,其特征在于:对数据实体的...
【专利技术属性】
技术研发人员:王济平,黎刚,周健雄,汤克云,
申请(专利权)人:广东京信软件科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。