数据对齐方法及装置、存储介质、电子装置制造方法及图纸

技术编号:22218704 阅读:39 留言:0更新日期:2019-09-30 01:10
本发明专利技术提供了一种数据对齐方法及装置、存储介质、电子装置,其中,上述方法包括:获取接收到的第一数据记录表中的第一字段信息和所述字段信息对应的第一词袋信息,其中,所述第一词袋信息用于表示所述第一字段信息在数据库中出现的概率;对于所述数据库中多个第二数据记录表中的每一个第二数据记录表,根据所述第一字段信息和所述第一词袋信息,以及所述第二数据记录表中的第二字段信息和第二词袋信息确定所述第一数据记录表与所述多个第二数据记录表的相似概率;将所述第一数据记录表的第一描述信息与所述相似概率超过第一阈值的第二数据记录表的第二描述信息对齐。

Data Alignment Method and Device, Storage Media and Electronic Device

【技术实现步骤摘要】
数据对齐方法及装置、存储介质、电子装置
本专利技术涉及计算机领域,具体而言,涉及一种数据对齐方法及装置、存储介质、电子装置。
技术介绍
随着计算机技术的发展,越来越多的人开始关注关系型数据的分析挖掘,进而得到关于关系型数据的数据分析结果。但是,由于不同的数据资源之间数据标准不一致,将会导致数据质量问题,进而会严重影响数据分析结果的可靠性。针对相关技术中,不同数据资源的标准不一致导致无法对数据进行有效对齐,进而影响数据分析结果的可靠性的问题,尚未提出有效的技术方案。
技术实现思路
本专利技术实施例提供了一种数据对齐方法及装置、存储介质、电子装置,以至少解决相关技术中,不同数据资源的标准不一致导致无法对数据进行有效对齐,进而影响数据分析结果的可靠性的问题。根据本专利技术的一个实施例,提供了一种数据对齐方法,包括:获取接收到的第一数据记录表中的第一字段信息和所述字段信息对应的第一词袋信息,其中,所述第一词袋信息用于表示所述第一字段信息在数据库中出现的概率;对于所述数据库中多个第二数据记录表中的每一个第二数据记录表,根据所述第一字段信息和所述第一词袋信息,以及所述第二数据记录表中的第二字段信息和本文档来自技高网...

【技术保护点】
1.一种数据对齐方法,其特征在于,包括:获取接收到的第一数据记录表中的第一字段信息和所述字段信息对应的第一词袋信息,其中,所述第一词袋信息用于表示所述第一字段信息在数据库中出现的概率;对于所述数据库中多个第二数据记录表中的每一个第二数据记录表,根据所述第一字段信息和所述第一词袋信息,以及所述第二数据记录表中的第二字段信息和第二词袋信息确定所述第一数据记录表与所述多个第二数据记录表的相似概率;将所述第一数据记录表的第一描述信息与所述相似概率超过第一阈值的第二数据记录表的第二描述信息对齐。

【技术特征摘要】
1.一种数据对齐方法,其特征在于,包括:获取接收到的第一数据记录表中的第一字段信息和所述字段信息对应的第一词袋信息,其中,所述第一词袋信息用于表示所述第一字段信息在数据库中出现的概率;对于所述数据库中多个第二数据记录表中的每一个第二数据记录表,根据所述第一字段信息和所述第一词袋信息,以及所述第二数据记录表中的第二字段信息和第二词袋信息确定所述第一数据记录表与所述多个第二数据记录表的相似概率;将所述第一数据记录表的第一描述信息与所述相似概率超过第一阈值的第二数据记录表的第二描述信息对齐。2.根据权利要求1所述的方法,其特征在于,根据所述第一字段信息和所述第一词袋信息,以及所述第二数据记录表中的第二字段信息和第二词袋信息确定所述第一数据记录表与所述多个第二数据记录表的相似概率,包括:将所述第一字段信息的值和所述第一词袋信息相乘得到所述相似概率,其中,在所述第二数据记录表中的第二字段信息存在所述第一字段信息的情况下,所述第一字段信息的值取值为第二阈值,在所述第二数据记录表中的第二字段信息未存在所述第一字段信息时,所述第一字段信息的值取值为第三阈值。3.根据权利要求1所述的方法,其特征在于,将所述第一数据记录表的第一描述信息与所述相似概率超过第一阈值的第二数据记录表的第二描述信息对齐,包括:将所述第一数据记录表以下至少之一信息:表名信息、字段信息以及所述第一数据记录表的数据格式,与所述相似概率超过第一阈值的第二数据记录表以下至少之一信息:表名信息、字段信息以及所述相似概率超过第一阈值的第二数据记录表的数据格式对齐。4.根据权利要求1至3任一项所述的方法,其特征在于,获取接收到的第一数据记录表中的第一字段信息和所述字段信息对应的第一词袋信息之前,所述方法还包括:接收所述第一数据记录表,其中,所述第一数据记录表中包括第一字段信息;建立与所述第一字段信息对应的第一词袋信息。5.一种数据对齐装置,其特征在于,包括:...

【专利技术属性】
技术研发人员:接钧靖张毅然王建伟
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1