【技术实现步骤摘要】
一种基于数据血缘关系的数据目录推荐方法、装置及应用
[0001]本专利技术涉及数据目录推荐领域,特别涉及一种基于数据血缘关系的数据目推荐方法、装置及应用。
技术介绍
[0002]数据目录是组织中所有数据资产的清单,帮助数据专业人员为任何分析或业务目的找到最相关的数据,它作为一个数据清单,并提供必要的信息来评估数据对预期用途的适用性,它还帮助分析师和其他数据用户找到他们为特定目的所需的目标数据。随着信息化的发展,各行各业形成数据目录以用于规范数据的使用,通过数据目录进行数据标准的推广,同时可以通过目录的形式提供已有的数据资产,保证数据的互联互通,实现数据使用的最大价值化。
[0003]目前数据目录的推荐主要采用的是协同过滤推荐以及基于内容的推荐两种方式,其中协同过滤推荐需要依托于对使用者的使用习惯进行分析处理,然而在一些特定的使用场景而言,使用者并不会大量使用数据目录,进而使得系统无法捕捉大量的用户行为也就无法利用协同过滤推荐方法进行数据目录的推荐,另外协同过滤推荐存在冷启动的弊端,无法推荐新加入或者没有人使用过的数据 ...
【技术保护点】
【技术特征摘要】
1.一种基于数据血缘关系的数据目录推荐方法,其特征在于,包括以下步骤:获取至少一数据目录的目录信息及不同数据目录之间的数据血缘关系,其中所述目录信息包括目录标签、目录名称以及目录字段;自所述数据目录中选定基础数据目录,未被选定的数据目录作为备选数据目录;基于所述目录信息和所述数据血缘关系计算每一备选数据目录同所述基础数据目录的目录相似度,其中所述目录相似度由标签相似度、名称相似度、字段相似度以及血缘关系相似度加权得到;依据目录相似度自高至低的顺序选定所述备选数据目录作为推荐数据目录。2.根据权利要求1所述的基于数据血缘关系的数据目录推荐方法,其特征在于,在“获取至少一数据目录的目录信息及不同数据目录之间的数据血缘关系”步骤中,自数据源采集原始数据,对所述原始数据进行数据治理得到存在数据血缘关系的数据库表,对所述数据库表进行编目得到对应的数据目录并构建对应的目录信息。3.根据权利要求1所述的基于数据血缘关系的数据目录推荐方法,其特征在于,计算每一备选数据目录的所有目录标签和所述基础数据目录的所有目录标签之间的相似度得到标签相似度。4.根据权利要求1所述的基于数据血缘关系的数据目录推荐方法,其特征在于,计算所述备选数据目录的目录名称的切分词和所述基础数据目录的目录名称的切分词之间的相似度得到名称相似度。5.根据权利要求1所述的基于数据血缘关系的数据目录推荐方法,其特征在于,计算所述备选数据目录的所有目录字段和所述基础数据目录的所有目录字段之间的相似度得到字段相似度。6.根据权利要求1所述的基于数据血缘关系的数据目录推荐方法,其特征在于,基于所述数据血缘关系获取所述备选数据目录对应的数据库表的备选数据血缘字段个数,基于所述数据血缘关系获取所...
【专利技术属性】
技术研发人员:郁强,陶阳,黄红叶,赵军辉,
申请(专利权)人:城云科技中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。