The invention discloses an automatic conversion method, device and storage medium for relational mode, which can complete null value completion and improve data quality in the process of relational mode conversion. The method includes: based on the preset attribute distance calculation method, determining the similarity between each attribute of the source relational pattern and each attribute of the target relational pattern, constructing the first attribute similarity matrix; based on the attribute distance calculation method, constructing the prediction model for each attribute included in the source relational pattern, and forecasting model. It is used to predict the value of the attribute by the values of other attributes closely related to the attribute; scan the missing values in the data table corresponding to the source relation pattern; predict the missing values according to the prediction model of the attributes corresponding to the missing values, and complete the data table by the predicted values; and according to the first attribute similarity matrix, scan the source. After the completion of relational schema, the data is mapped to the target relational schema.
【技术实现步骤摘要】
关系模式的自动转换方法、装置及存储介质
本公开涉及计算机
,具体地,涉及一种关系模式的自动转换方法、装置及存储介质。
技术介绍
信息技术的飞速发展,催生了大数据时代的到来。在各行各业的领域里面,都积累了PB(Petabyte,数据存储容量单位)规模以上的数据。数据的积累来源非常丰富,包括工业大数据,遥测数据,社交网络数据,时间数据与位置数据,文本数据,车载信息服务数据等等。可以看到,各行各业都深刻的被大数据影响和改变着。伴随着大数据而来的一个重大的问题就是数据质量的问题。由于各种条件,比如传输条件,采集条件,历史条件,输入错误,系统故障等等不可避免的因素,会带来的数据缺失或者数据之间相互矛盾的事情,导致了数据质量的大幅度下降。大量的研究表明,在全球财富1000强的企业中,超过百分之二十五的企业信息系统中存在着数据的错误,缺失或者歧义。数据的缺失或者歧义,严重的降低了数据的使用价值。这个问题,随着数据规模的进一步增加越来越严重。如何在有限的资源条件下,低成本的改进大数据的质量,成为当前社会的一个重要课题。ETL(Extract-Transform-Load,数据仓库技术),用来描述将数据从源端经过抽取(Extract)、转换(Transform),加载(Load)至目的端的过程。ETL是构建数据仓库的一个重要的环节,将数据从各种源端经过转换以特定格式加载到目的端,会极大的提高数据的可用性,提高数据的质量。为后续的应用,数据价值的挖掘提供了重要的保证。ETL技术受到了当前社会的广泛关注,关于ETL过程的理论和实用技术的研究层出不穷。ETL技术的改进,必将 ...
【技术保护点】
1.一种关系模式的自动转换方法,其特征在于,所述方法包括:基于预设的属性距离计算方法,确定源关系模式的每个属性与目标关系模式的每个属性之间的相似度,构建第一属性相似度矩阵;基于所述属性距离计算方法,为所述源关系模式包括的每个属性构建预测模型,所述预测模型用于通过与该属性关系密切的其他属性的值来预测该属性的值;扫描所述源关系模式对应的数据表中的缺失值;根据所述缺失值对应属性的预测模型,预测所述缺失值的取值,并通过预测的取值补全所述数据表;根据所述第一属性相似度矩阵,将所述源关系模式补全后的数据映射到所述目标关系模式。
【技术特征摘要】
1.一种关系模式的自动转换方法,其特征在于,所述方法包括:基于预设的属性距离计算方法,确定源关系模式的每个属性与目标关系模式的每个属性之间的相似度,构建第一属性相似度矩阵;基于所述属性距离计算方法,为所述源关系模式包括的每个属性构建预测模型,所述预测模型用于通过与该属性关系密切的其他属性的值来预测该属性的值;扫描所述源关系模式对应的数据表中的缺失值;根据所述缺失值对应属性的预测模型,预测所述缺失值的取值,并通过预测的取值补全所述数据表;根据所述第一属性相似度矩阵,将所述源关系模式补全后的数据映射到所述目标关系模式。2.根据权利要求1所述的方法,其特征在于,属性距离包括属性名称的语言学要素之间的距离、属性名称的语义之间的距离、属性所对应的类型之间的距离、及属性注释之间的距离,所述属性距离计算方法包括以下计算属性类型之间的距离的步骤:根据要计算属性类型之间的距离的两个属性在预设属性数据库中是否属于合法类型、是否属于同一大类、是否属于同一小类、以及在属于同一小类时两个类型在所述预设属性数据库中的间隔距离,进行分步计分;根据计分结果确定所述两个属性所对应的类型之间的距离。3.根据权利要求2所述的方法,其特征在于,基于所述属性距离计算方法,为所述源关系模式包括的每个属性构建预测模型,包括:基于所述属性距离计算方法,为所述源关系模式包括的任两个属性计算相似度,并构建所述源关系模式的第二属性相似度矩阵;根据所述第二属性相似度矩阵,为所述源关系模式包括的每个属性选出多个距离最小的属性;对每个属性以及针对该属性选出的多个属性进行特征编码;对编码后的向量进行特征扩展以及特征压缩;将压缩后的特征数据输入到目标模型中进行训练,以得到每个属性的预测模型。4.根据权利要求3所述的方法,其特征在于,根据所述缺失值对应属性的预测模型,预测所述缺失值的取值,包括:根据所述第二属性相似度矩阵,确定与所述缺失值对应属性距离最小的多个属性;基于与所述缺失值对应属性距离最小的多个属性,构建模型输入数据并输入所述缺失值对应属性的预测模型,以得到模型输出值;反向解码所述模型输出值,以得到预测的所述缺失值的取值。5.根据权利要求4所述的方法,其特征在于,在得到预测的所述缺失值的取值之后,还包括:根据所述缺失值所属属性的类型对应的取值...
【专利技术属性】
技术研发人员:王宏志,周游,杨东华,高宏,齐志鑫,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。