【技术实现步骤摘要】
数据表相似度确定方法及装置
本专利技术涉及数据处理
,尤其涉及一种数据表相似度确定方法及装置。
技术介绍
数据表,是数据仓库中用来存储数据的对象,数据在数据表中按行与列的格式组织排列,数据表中的每一列都设计为存储某种类型的信息,例如,姓名、日期等。随着业务的快速发展,数据仓库中所存储的数据也越来越多,因此存储在数据仓库中的数据表也越来越多。各用户在构建自己的数据仓库的过程中,会根据业务需要创建大量的数据表,而且不同数据表中的字段之间会存在一定的调用关系和关联关系,使得不同数据表中的数据有一定的重复和相似性,可能会存在数据重复加工的问题,导致整个数据仓库的冗余数据增加,不利于数据仓库的健康维护。目前,现有技术中对于数据仓库中不同数据表相似度的确定还处于空白阶段,需要依赖人工和经验来判断两个数据表是否相似以及数据仓库的数据冗余情况。这种方式效率较低,无法快速对数据仓库中不同数据表的相似度进行确定。而且,由于依赖人工和经验,将会导致确定结果的准确性降低。
技术实现思路
本专利技术提供一种数据表相似度确定方法及装置,用以解决现有技术中存在的缺陷。本专利技术提供一种数据表相似度确定方法,包括:判断数据仓库中任意两个数据表中是否存在具有关联关系的字段;若所述任意两个数据表中存在具有关联关系的字段,则确定所述任意两个数据表中具有关联关系的至少一对字段之间的字段相似度;基于所述字段相似度以及所述任意两个数据表中的字段数量,确定所述任意两个数据表的表相似度。r>根据本专利技术提供一种数据表相似度确定方法,所述基于所述字段相似度以及所述任意两个数据表中的字段数量,确定所述任意两个数据表的表相似度,具体包括:对所述任意两个数据表中具有关联关系的至少一对字段之间的字段相似度进行求和,得到第一求和结果;将所述第一求和结果与所述任意两个数据表中的字段数量的比值作为所述任意两个数据表的表相似度。根据本专利技术提供一种数据表相似度确定方法,还包括:若所述任意两个数据表中不存在具有关联关系的字段,则确定所述数据仓库中与所述任意两个数据表对应的至少一个关联数据表,所述关联数据表中存在与所述任意两个数据表中的字段均具有关联关系的至少一个关联字段;基于任一关联数据表中的任一关联字段与所述任意两个数据表中对应的字段之间的字段相似度,以及所述任一关联数据表中的关联字段的数量,确定所述任意两个数据表的表相似度。根据本专利技术提供一种数据表相似度确定方法,所述基于任一关联数据表中的任一关联字段与所述任意两个数据表中对应的字段之间的字段相似度,以及所述任一关联数据表中的关联字段的数量,确定所述任意两个数据表的表相似度,具体包括:基于所述任一关联数据表中的任一关联字段与所述任意两个数据表中对应的字段之间的字段相似度,以及所述任一关联数据表中的关联字段的数量,确定所述任一关联数据表对应的表相似度项;将所述至少一个关联数据表对应的表相似度项之和作为所述任意两个数据表的表相似度。根据本专利技术提供一种数据表相似度确定方法,所述基于所述任一关联数据表中的任一关联字段与所述任意两个数据表中对应的字段之间的字段相似度,以及所述任一关联数据表中的关联字段的数量,确定所述任一关联数据表对应的表相似度项,具体包括:基于所述任一关联数据表中的任一关联字段与所述任意两个数据表中对应的字段之间的字段相似度,对所述任一关联数据表中的至少一个关联字段与所述任意两个数据表中对应的字段之间的字段相似度进行求和,得到第二求和结果;基于所述第二求和结果与所述任一关联数据表中的关联字段的数量之间的比值,确定所述任一关联数据表对应的表相似度项。根据本专利技术提供一种数据表相似度确定方法,还包括:基于所述任意两个数据表的表相似度,确定所述数据仓库的整体表相似度。根据本专利技术提供一种数据表相似度确定方法,所述确定所述任意两个数据表中具有关联关系的至少一对字段之间的字段相似度,之前还包括:基于词法解析方法以及语法解析方法,确定所述任意两个数据表中具有关联关系的至少一对字段以及对应的关联关系类型。根据本专利技术提供一种数据表相似度确定方法,所述词法解析方法包括基于HiveLexerX解析类实现的解析方法,所述语法解析方法包括基于HiveParser解析类实现的解析方法。根据本专利技术提供一种数据表相似度确定方法,所述确定所述任意两个数据表中具有关联关系的至少一对字段之间的字段相似度,具体包括:基于所述任意两个数据表中具有关联关系的至少一对字段对应的关联关系类型,确定所述任意两个数据表中具有关联关系的至少一对字段之间的字段相似度。本专利技术还提供一种数据表相似度确定装置,包括:判断模块、字段相似度确定模块和第一表相似度确定模块。其中,判断模块用于判断数据仓库中任意两个数据表中是否存在具有关联关系的字段;字段相似度确定模块用于若所述任意两个数据表中存在具有关联关系的字段,则确定所述任意两个数据表中具有关联关系的字段之间的字段相似度;第一表相似度确定模块用于基于所述字段相似度以及所述任意两个数据表中的字段数量,确定所述任意两个数据表的表相似度。根据本专利技术提供一种数据表相似度确定装置,所述第一表相似度确定模块,具体用于:对所述任意两个数据表中具有关联关系的至少一对字段之间的字段相似度进行求和,得到第一求和结果;将所述第一求和结果与所述任意两个数据表中的字段数量的比值作为所述任意两个数据表的表相似度。根据本专利技术提供一种数据表相似度确定装置,还包括:关联数据表确定模块,用于若所述任意两个数据表中不存在具有关联关系的字段,则确定所述数据仓库中与所述任意两个数据表对应的至少一个关联数据表,所述关联数据表中存在与所述任意两个数据表中的字段均具有关联关系的至少一个关联字段;第二表相似度确定模块,用于基于任一关联数据表中的任一关联字段与所述任意两个数据表中对应的字段之间的字段相似度,以及所述任一关联数据表中的关联字段的数量,确定所述任意两个数据表的表相似度。根据本专利技术提供一种数据表相似度确定装置,所述第二表相似度确定模块,具体用于:基于所述任一关联数据表中的任一关联字段与所述任意两个数据表中对应的字段之间的字段相似度,以及所述任一关联数据表中的关联字段的数量,确定所述任一关联数据表对应的表相似度项;将所述至少一个关联数据表对应的表相似度项之和作为所述任意两个数据表的表相似度。根据本专利技术提供一种数据表相似度确定装置,所述第二表相似度确定模块,具体用于:基于所述任一关联数据表中的任一关联字段与所述任意两个数据表中对应的字段之间的字段相似度,对所述任一关联数据表中的至少一个关联字段与所述任意两个数据表中对应的字段之间的字段相似度进行求和,得到第二求和结果;基于所述第二求和结果与所述任一关联数据表中的关联字段的数量之间的比值,确定所述任一关联数据表对应的表相似度项。根据本文档来自技高网...
【技术保护点】
1.一种数据表相似度确定方法,其特征在于,包括:/n判断数据仓库中任意两个数据表中是否存在具有关联关系的字段;/n若所述任意两个数据表中存在具有关联关系的字段,则确定所述任意两个数据表中具有关联关系的至少一对字段之间的字段相似度;/n基于所述字段相似度以及所述任意两个数据表中的字段数量,确定所述任意两个数据表的表相似度。/n
【技术特征摘要】
1.一种数据表相似度确定方法,其特征在于,包括:
判断数据仓库中任意两个数据表中是否存在具有关联关系的字段;
若所述任意两个数据表中存在具有关联关系的字段,则确定所述任意两个数据表中具有关联关系的至少一对字段之间的字段相似度;
基于所述字段相似度以及所述任意两个数据表中的字段数量,确定所述任意两个数据表的表相似度。
2.根据权利要求1所述的数据表相似度确定方法,其特征在于,所述基于所述字段相似度以及所述任意两个数据表中的字段数量,确定所述任意两个数据表的表相似度,具体包括:
对所述任意两个数据表中具有关联关系的至少一对字段之间的字段相似度进行求和,得到第一求和结果;
将所述第一求和结果与所述任意两个数据表中的字段数量的比值作为所述任意两个数据表的表相似度。
3.根据权利要求1所述的数据表相似度确定方法,其特征在于,还包括:
若所述任意两个数据表中不存在具有关联关系的字段,则确定所述数据仓库中与所述任意两个数据表对应的至少一个关联数据表,所述关联数据表中存在与所述任意两个数据表中的字段均具有关联关系的至少一个关联字段;
基于任一关联数据表中的任一关联字段与所述任意两个数据表中对应的字段之间的字段相似度,以及所述任一关联数据表中的关联字段的数量,确定所述任意两个数据表的表相似度。
4.根据权利要求3所述的数据表相似度确定方法,其特征在于,所述基于任一关联数据表中的任一关联字段与所述任意两个数据表中对应的字段之间的字段相似度,以及所述任一关联数据表中的关联字段的数量,确定所述任意两个数据表的表相似度,具体包括:
基于所述任一关联数据表中的任一关联字段与所述任意两个数据表中对应的字段之间的字段相似度,以及所述任一关联数据表中的关联字段的数量,确定所述任一关联数据表对应的表相似度项;
将所述至少一个关联数据表对应的表相似度项之和作为所述任意两个数据表的表相似度。
5.根据权利要求4所述的数据表相似度确定方法,其特征在于,所述基于...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。