一种构建数据类目体系的方法和系统技术方案

技术编号:24168557 阅读:48 留言:0更新日期:2020-05-16 02:12
本申请涉及一种构建数据类目体系的方法和系统,其中该方法包括:获取新类目;将新类目和数据类目体系中的现有类目向量化;通过比较向量化的新类目与向量化的现有类目之间的相似度来确定新类目在数据类目体系中的位置。

A method and system of constructing data category system

【技术实现步骤摘要】
一种构建数据类目体系的方法和系统
本专利技术涉及数据分类技术,更具体而言,涉及一种构建数据类目体系的方法和系统。
技术介绍
越来越多的企业拥有或者控制越来越多的以物理或电子方式记录的数据。为了能更好地分析、利用这些数据,通常需要构建数据类目体系。数据类目体系越完整(即丰度越高),企业对数据的使用就越高效。当前一般通过对数据进行人工整理和分类来构建数据类目体系,缺少自动构建数据类目体系的技术方案。
技术实现思路
本专利技术提供了一种构建数据类目体系的方法,其包括获取新类目;将所述新类目和所述数据类目体系中的现有类目向量化;通过比较向量化的所述新类目与向量化的所述现有类目之间的相似度来确定所述新类目在所述数据类目体系中的位置。在一种实施方案中,所述获取操作包括从数据资产中读取数据;和对所述数据进行分词以生成所述新类目。在一种实施方案中,所述数据是表名或字段名。在一种实施方案中,所述确定操作包括确定所述新类目在所述数据类目体系中的最佳类目层级;并且其中,与其他类目层级相比,所述新类目与所述最佳类目层级的相似度最高。在一种实施方案中,所述新类目与所述最佳类目层级中的全部现有类目的相似度的平均值和标准差的乘积不低于其他类目层级。在一种实施方案中,当所述数据是表名时,所述新类目在除最低类目层级之外的类目层级中;并且当所述数据是字段名时,所述新类目在最低类目层级中。在一种实施方案中,所述确定操作包括确定所述新类目在所述数据类目体系中的最佳类目序列;并且其中,与其他类目序列相比,所述新类目与所述最佳类目序列的相似度最高。在一种实施方案中,所述新类目与所述最佳类目序列中的全部现有类目的相似度的乘积不低于其他类目序列。在一种实施方案中,当所述新类目的类目层级已经确定时,所述新类目与所述最佳类目序列的相似度是所述新类目与所述类目序列中的部分现有类目的相似度的乘积;并且其中,所述部分现有类目的类目层级比所述新类目的类目层级高。在一种实施方案中,该方法还包括以二维数组表示所述新类目的所述位置。本专利技术还提供了一种构建数据类目体系的系统,其包括用于获取新类目的装置;用于将所述新类目和所述数据类目体系中的现有类目向量化的装置;和用于通过比较向量化的所述新类目与向量化的所述现有类目之间的相似度来确定所述新类目在所述数据类目体系中的位置的装置。本专利技术还提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上面描述的方法。本专利技术能够自动构建数据类目体系。使用本专利技术的方法构建的数据类目体系具有较高的完整度。附图说明图1是根据本专利技术的实施例的数据类目体系的示意图。图2是根据本专利技术的实施例的构建数据类目体系的方法的流程图。图3A和3B是根据本专利技术的实施例的确定新类目在数据类目体系中的类目层级的示意图。图4A和4B是根据本专利技术的实施例的确定新类目在数据类目体系中的类目序列的示意图。具体实施方式现在将参照若干示例性实施例来说明本专利技术的内容。应当理解,说明这些实施例仅是为了使得本领域普通技术人员能够更好地理解并且因此实现本专利技术的内容,而不是暗示对本专利技术的范围进行任何限制。如本文中所使用的,术语“包括”及其变体应当解读为意味着“包括但不限于”的开放式术语。术语“基于”应当解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”应当解读为“至少一个实施例”。术语“另一个实施例”应当解读为“至少一个其他实施例”。在本专利技术的实施例中,“数据类目体系”指的是包含一个或多个领域中数据的类目的集合。在本专利技术的实施例中,“类目”指的是描述特定领域中数据的内容的关键词。例如,营销领域的数据类目体系可以包含如下类目:人、消费者、人口学属性、性别、年龄等。在计算机系统的实施层面,类目表现为关键词的字符串(以中文或其他文字的形式)。在本专利技术的实施例中,数据类目体系中的类目可以被划分在不同的层级中。在本专利技术的实施例中,每个类目层级可以包含多个类目。在本专利技术的实施例中,数据类目体系可以包含一个或多个(例如,两个以上)类目层级。低类目层级中的类目从属于一个或多个高类目层级的类目。例如,低类目层级中的类目“性别”从属于不同高类目层级中的类目“人”、“消费者”和“人口学属性”。在本专利技术的实施例中,最低类目层级又称为标签层级,并且最低类目层级中的类目又称为标签。图1示出了根据本专利技术的实施例的数据类目体系,其表现为树状结构。在该树状结构中,最低类目层级表述为标签层级。在本专利技术的实施例中,“类目序列”指的是由具有从属关系的各个类目层级中的一个类目排列组成的序列,其是从最高层级类目到最低层级类目的有顺序的排列。例如,在图3A所示的数据类目体系中,类目序列可以是“A-B1-C2-D2”或“A-B2-C3-D5”。前述“性别”类目的例子中也形成序列“人-消费者-人口学属性-性别”。如本领域中公知的,“相似度”指的是两个词语各自生成的向量之间的距离。例如,词语A的向量为[a1,a2],词语B的向量为[b1,b2],则它们之间的相似度相似度越高,则两个词语的词义越接近。在本专利技术的实施例中,S为1表示相似度最高,S为0表示相似度最低。在本专利技术的实施例中,可以使用其他相似度计算公式。图2示出了根据本专利技术的实施例的构建数据类目体系的方法,其包括确定新类目在数据类目体系中的位置和将新类目添加到数据类目体系的上述位置中。在本专利技术的实施例中,该方法包括获取新类目;将新类目和数据类目体系中的现有类目向量化;通过比较向量化的新类目与向量化的现有类目之间的相似度来确定新类目在数据类目体系中的位置。在本专利技术的实施例中,“新类目”指的是待添加到数据类目体系中的位置未确定的类目。在本专利技术的实施例中,“现有类目”指的是数据类目体系中已经存在的位置确定的类目。在本专利技术的实施例中,新类目可以源自从数据资产中获取的数据,包括但不限于表名和字段名。在本专利技术的实施例中,数据资产指的是存储在数据库中的表。在本专利技术的实施例中,可以将数据资产(比如MySQL数据库中的表)中的表名和/或字段名同步到待进行后续操作的数据库中。在本专利技术的实施例中,同步操作可以是复制、移动等操作。在本专利技术的实施例中,可以通过例如分词工具(比如可从https://github.com/fxsjy/jieba获得的jieba分词工具)等对表名和/或字段名进行分词处理以生成新类目。在本专利技术的实施例中,字段名分词处理后获得的是标签。在本专利技术的实施例中,表名分词处理后获得的是除标签以外的类目。在本专利技术的实施例中,可以通过例如词语向量化工具(比如word2vec,可从https://github.com/dav/word2vec获得)等进行类目的向量化。在本专利技术的实施例中,通过比较向量化的类目之间的相似度,能够确定新类目在数据类目体系中的位置。在本专利技术的实施例中,新类目在数据类目体系中的位置指的是新类目在数据类目体系中所处的类目层级和类目本文档来自技高网...

【技术保护点】
1.一种构建数据类目体系的方法,其包括:/n获取新类目;/n将所述新类目和所述数据类目体系中的现有类目向量化;/n通过比较向量化的所述新类目与向量化的所述现有类目之间的相似度来确定所述新类目在所述数据类目体系中的位置。/n

【技术特征摘要】
1.一种构建数据类目体系的方法,其包括:
获取新类目;
将所述新类目和所述数据类目体系中的现有类目向量化;
通过比较向量化的所述新类目与向量化的所述现有类目之间的相似度来确定所述新类目在所述数据类目体系中的位置。


2.根据权利要求1所述的构建数据类目体系的方法,其中所述获取操作包括:
从数据资产中读取数据;和
对所述数据进行分词以生成所述新类目。


3.根据权利要求2所述的构建数据类目体系的方法,其中所述数据是表名或字段名。


4.根据权利要求1所述的构建数据类目体系的方法,其中所述确定操作包括确定所述新类目在所述数据类目体系中的最佳类目层级;并且
其中,与其他类目层级相比,所述新类目与所述最佳类目层级的相似度最高。


5.根据权利要求4所述的构建数据类目体系的方法,其中所述新类目与所述最佳类目层级中的全部现有类目的相似度的平均值和标准差的乘积不低于其他类目层级。


6.根据权利要求3所述的构建数据类目体系的方法,其中:
当所述数据是表名时,所述新类目在除最低类目层级之外的类目层级中;并且
当所述数据是字段名时,所述新类目在最低类目层级中。


7.根据权利要求1所述的构建...

【专利技术属性】
技术研发人员:任寅姿杨春斌杨析耘
申请(专利权)人:杭州数澜科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1