关系模式的自动转换方法、装置及存储介质制造方法及图纸

技术编号:19388866 阅读:34 留言:0更新日期:2018-11-10 02:01
本发明专利技术公开了一种关系模式的自动转换方法、装置及存储介质,能够在关系模式转换过程中完成空值补全,提高数据质量。所述方法包括:基于预设的属性距离计算方法,确定源关系模式的每个属性与目标关系模式的每个属性之间的相似度,构建第一属性相似度矩阵;基于属性距离计算方法,为源关系模式包括的每个属性构建预测模型,预测模型用于通过与该属性关系密切的其他属性的值来预测该属性的值;扫描源关系模式对应的数据表中的缺失值;根据缺失值对应属性的预测模型,预测缺失值的取值,并通过预测的取值补全数据表;根据第一属性相似度矩阵,将源关系模式补全后的数据映射到目标关系模式。

Automatic conversion method, device and storage medium for relational schema

The invention discloses an automatic conversion method, device and storage medium for relational mode, which can complete null value completion and improve data quality in the process of relational mode conversion. The method includes: based on the preset attribute distance calculation method, determining the similarity between each attribute of the source relational pattern and each attribute of the target relational pattern, constructing the first attribute similarity matrix; based on the attribute distance calculation method, constructing the prediction model for each attribute included in the source relational pattern, and forecasting model. It is used to predict the value of the attribute by the values of other attributes closely related to the attribute; scan the missing values in the data table corresponding to the source relation pattern; predict the missing values according to the prediction model of the attributes corresponding to the missing values, and complete the data table by the predicted values; and according to the first attribute similarity matrix, scan the source. After the completion of relational schema, the data is mapped to the target relational schema.

【技术实现步骤摘要】
关系模式的自动转换方法、装置及存储介质
本公开涉及计算机
,具体地,涉及一种关系模式的自动转换方法、装置及存储介质。
技术介绍
信息技术的飞速发展,催生了大数据时代的到来。在各行各业的领域里面,都积累了PB(Petabyte,数据存储容量单位)规模以上的数据。数据的积累来源非常丰富,包括工业大数据,遥测数据,社交网络数据,时间数据与位置数据,文本数据,车载信息服务数据等等。可以看到,各行各业都深刻的被大数据影响和改变着。伴随着大数据而来的一个重大的问题就是数据质量的问题。由于各种条件,比如传输条件,采集条件,历史条件,输入错误,系统故障等等不可避免的因素,会带来的数据缺失或者数据之间相互矛盾的事情,导致了数据质量的大幅度下降。大量的研究表明,在全球财富1000强的企业中,超过百分之二十五的企业信息系统中存在着数据的错误,缺失或者歧义。数据的缺失或者歧义,严重的降低了数据的使用价值。这个问题,随着数据规模的进一步增加越来越严重。如何在有限的资源条件下,低成本的改进大数据的质量,成为当前社会的一个重要课题。ETL(Extract-Transform-Load,数据仓库技术),用来描述将数据从源端经过抽取(Extract)、转换(Transform),加载(Load)至目的端的过程。ETL是构建数据仓库的一个重要的环节,将数据从各种源端经过转换以特定格式加载到目的端,会极大的提高数据的可用性,提高数据的质量。为后续的应用,数据价值的挖掘提供了重要的保证。ETL技术受到了当前社会的广泛关注,关于ETL过程的理论和实用技术的研究层出不穷。ETL技术的改进,必将对当今社会的产生极其广泛和深远的影响。在ETL过程中,一个极其常见和重要的问题就是关系模式的转换。关系模式的转换,即把一个关系模式映射到另一个关系模式,在现有的数据迁移,web(互联网总称)数据处理,企业信息价值挖掘的场景中应用非常的普遍。关系模式的转换,通常而言是由人手动匹配和进行的,而由手动匹配的关系模式转换,易于出错,繁琐并且浪费时间。因此研究自动的关系模式转换,就显得越来越重要。目前面向关系模式的转换已有大量的研究,但是这些研究还存在改进的空间,主要表现在以下两个方面:1、大部分关系模式的转换是针对特定领域的,对于通用的智能关系模式的自动转换的准确率远远不够。2、关系模式转换的工作仅仅围绕着转换,转换的过程并没有对数据质量问题进行改进,数据质量的改进要通过一个单独的数据清洗过程,费时费力,对于大规模的数据,这个问题会显得更加的严重甚至无法完成。
技术实现思路
本公开的目的是提供一种关系模式的自动转换方法、装置及存储介质,能够在关系模式转换过程中完成空值补全,提高数据质量。根据本公开实施例的第一方面,提供一种关系模式的自动转换方法,包括:基于预设的属性距离计算方法,确定源关系模式的每个属性与目标关系模式的每个属性之间的相似度,构建第一属性相似度矩阵;基于所述属性距离计算方法,为所述源关系模式包括的每个属性构建预测模型,所述预测模型用于通过与该属性关系密切的其他属性的值来预测该属性的值;扫描所述源关系模式对应的数据表中的缺失值;根据所述缺失值对应属性的预测模型,预测所述缺失值的取值,并通过预测的取值补全所述数据表;根据所述第一属性相似度矩阵,将所述源关系模式补全后的数据映射到所述目标关系模式。可选的,属性距离包括属性名称的语言学要素之间的距离、属性名称的语义之间的距离、属性所对应的类型之间的距离、及属性注释之间的距离,所述属性距离计算方法包括以下计算属性类型之间的距离的步骤:根据要计算属性类型之间的距离的两个属性在预设属性数据库中是否属于合法类型、是否属于同一大类、是否属于同一小类、以及在属于同一小类时两个类型在所述预设属性数据库中的间隔距离,进行分步计分;根据计分结果确定所述两个属性所对应的类型之间的距离。可选的,基于所述属性距离计算方法,为所述源关系模式包括的每个属性构建预测模型,包括:基于所述属性距离计算方法,为所述源关系模式包括的任两个属性计算相似度,并构建所述源关系模式的第二属性相似度矩阵;根据所述第二属性相似度矩阵,为所述源关系模式包括的每个属性选出多个距离最小的属性;对每个属性以及针对该属性选出的多个属性进行特征编码;对编码后的向量进行特征扩展以及特征压缩;将压缩后的特征数据输入到目标模型中进行训练,以得到每个属性的预测模型。可选的,根据所述缺失值对应属性的预测模型,预测所述缺失值的取值,包括:根据所述第二属性相似度矩阵,确定与所述缺失值对应属性距离最小的多个属性;基于与所述缺失值对应属性距离最小的多个属性,构建模型输入数据并输入所述缺失值对应属性的预测模型,以得到模型输出值;反向解码所述模型输出值,以得到预测的所述缺失值的取值。可选的,在得到预测的所述缺失值的取值之后,还包括:根据所述缺失值所属属性的类型对应的取值范围,检查所述缺失值的取值是否符合要求。可选的,在根据所述相似度,将所述源关系模式补全后的数据映射到所述目标关系模式之后,还包括:根据数据的类型,验证所述源关系模式转换到所述目标关系模式的有效性。根据本公开实施例的第二方面,提供一种关系模式的自动转换装置,包括:第一构建模块,用于基于预设的属性距离计算方法,确定源关系模式的每个属性与目标关系模式的每个属性之间的相似度,构建第一属性相似度矩阵;第二构建模块,用于基于所述属性距离计算方法,为所述源关系模式包括的每个属性构建预测模型,所述预测模型用于通过与该属性关系密切的其他属性的值来预测该属性的值;扫描模块,用于扫描所述源关系模式对应的数据表中的缺失值;预测模块,用于根据所述缺失值对应属性的预测模型,预测所述缺失值的取值,并通过预测的取值补全所述数据表;数据映射模块,用于根据所述第一属性相似度矩阵,将所述源关系模式补全后的数据映射到所述目标关系模式。可选的,属性距离包括属性名称的语言学要素之间的距离、属性名称的语义之间的距离、属性所对应的类型之间的距离、及属性注释之间的距离,所述装置还包括属性距离计算模块,所述属性距离计算模块用于:根据要计算属性类型之间的距离的两个属性在预设属性数据库中是否属于合法类型、是否属于同一大类、是否属于同一小类、以及在属于同一小类时两个类型在所述预设属性数据库中的间隔距离,进行分步计分;根据计分结果确定所述两个属性所对应的类型之间的距离。可选的,所述第二构建模块包括:构建子模块,用于基于所述属性距离计算方法,为所述源关系模式包括的任两个属性计算相似度,并构建所述源关系模式的第二属性相似度矩阵;属性选取模块,用于根据所述第二属性相似度矩阵,为所述源关系模式包括的每个属性选出多个距离最小的属性;编码模块,用于对每个属性以及针对该属性选出的多个属性进行特征编码;压缩模块,用于对编码后的向量进行特征扩展以及特征压缩;训练模块,用于将压缩后的特征数据输入到目标模型中进行训练,以得到每个属性的预测模型。可选的,所述预测模块包括:确定模块,用于根据所述第二属性相似度矩阵,确定与所述缺失值对应属性距离最小的多个属性;输出值获得模块,用于基于与所述缺失值对应属性距离最小的多个属性,构建模型输入数据并输入所述缺失值对应属性的预测模型,以得到模型输出值;反向解本文档来自技高网
...

【技术保护点】
1.一种关系模式的自动转换方法,其特征在于,所述方法包括:基于预设的属性距离计算方法,确定源关系模式的每个属性与目标关系模式的每个属性之间的相似度,构建第一属性相似度矩阵;基于所述属性距离计算方法,为所述源关系模式包括的每个属性构建预测模型,所述预测模型用于通过与该属性关系密切的其他属性的值来预测该属性的值;扫描所述源关系模式对应的数据表中的缺失值;根据所述缺失值对应属性的预测模型,预测所述缺失值的取值,并通过预测的取值补全所述数据表;根据所述第一属性相似度矩阵,将所述源关系模式补全后的数据映射到所述目标关系模式。

【技术特征摘要】
1.一种关系模式的自动转换方法,其特征在于,所述方法包括:基于预设的属性距离计算方法,确定源关系模式的每个属性与目标关系模式的每个属性之间的相似度,构建第一属性相似度矩阵;基于所述属性距离计算方法,为所述源关系模式包括的每个属性构建预测模型,所述预测模型用于通过与该属性关系密切的其他属性的值来预测该属性的值;扫描所述源关系模式对应的数据表中的缺失值;根据所述缺失值对应属性的预测模型,预测所述缺失值的取值,并通过预测的取值补全所述数据表;根据所述第一属性相似度矩阵,将所述源关系模式补全后的数据映射到所述目标关系模式。2.根据权利要求1所述的方法,其特征在于,属性距离包括属性名称的语言学要素之间的距离、属性名称的语义之间的距离、属性所对应的类型之间的距离、及属性注释之间的距离,所述属性距离计算方法包括以下计算属性类型之间的距离的步骤:根据要计算属性类型之间的距离的两个属性在预设属性数据库中是否属于合法类型、是否属于同一大类、是否属于同一小类、以及在属于同一小类时两个类型在所述预设属性数据库中的间隔距离,进行分步计分;根据计分结果确定所述两个属性所对应的类型之间的距离。3.根据权利要求2所述的方法,其特征在于,基于所述属性距离计算方法,为所述源关系模式包括的每个属性构建预测模型,包括:基于所述属性距离计算方法,为所述源关系模式包括的任两个属性计算相似度,并构建所述源关系模式的第二属性相似度矩阵;根据所述第二属性相似度矩阵,为所述源关系模式包括的每个属性选出多个距离最小的属性;对每个属性以及针对该属性选出的多个属性进行特征编码;对编码后的向量进行特征扩展以及特征压缩;将压缩后的特征数据输入到目标模型中进行训练,以得到每个属性的预测模型。4.根据权利要求3所述的方法,其特征在于,根据所述缺失值对应属性的预测模型,预测所述缺失值的取值,包括:根据所述第二属性相似度矩阵,确定与所述缺失值对应属性距离最小的多个属性;基于与所述缺失值对应属性距离最小的多个属性,构建模型输入数据并输入所述缺失值对应属性的预测模型,以得到模型输出值;反向解码所述模型输出值,以得到预测的所述缺失值的取值。5.根据权利要求4所述的方法,其特征在于,在得到预测的所述缺失值的取值之后,还包括:根据所述缺失值所属属性的类型对应的取值...

【专利技术属性】
技术研发人员:王宏志周游杨东华高宏齐志鑫
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1