一种构建数据类目体系的方法和系统技术方案

技术编号：24168557 阅读：48 留言：0更新日期：2020-05-16 02:12

本申请涉及一种构建数据类目体系的方法和系统，其中该方法包括：获取新类目；将新类目和数据类目体系中的现有类目向量化；通过比较向量化的新类目与向量化的现有类目之间的相似度来确定新类目在数据类目体系中的位置。

A method and system of constructing data category system

全部详细技术资料下载

【技术实现步骤摘要】
一种构建数据类目体系的方法和系统
本专利技术涉及数据分类技术，更具体而言，涉及一种构建数据类目体系的方法和系统。
技术介绍
越来越多的企业拥有或者控制越来越多的以物理或电子方式记录的数据。为了能更好地分析、利用这些数据，通常需要构建数据类目体系。数据类目体系越完整(即丰度越高)，企业对数据的使用就越高效。当前一般通过对数据进行人工整理和分类来构建数据类目体系，缺少自动构建数据类目体系的技术方案。
技术实现思路
本专利技术提供了一种构建数据类目体系的方法，其包括获取新类目；将所述新类目和所述数据类目体系中的现有类目向量化；通过比较向量化的所述新类目与向量化的所述现有类目之间的相似度来确定所述新类目在所述数据类目体系中的位置。在一种实施方案中，所述获取操作包括从数据资产中读取数据；和对所述数据进行分词以生成所述新类目。在一种实施方案中，所述数据是表名或字段名。在一种实施方案中，所述确定操作包括确定所述新类目在所述数据类目体系中的最佳类目层级；并且其中，与其他类目层级相比，所述新类目与所述最佳类目层级的相似度最高。在一种实施方案中，所述新类目与所述最佳类目层级中的全部现有类目的相似度的平均值和标准差的乘积不低于其他类目层级。在一种实施方案中，当所述数据是表名时，所述新类目在除最低类目层级之外的类目层级中；并且当所述数据是字段名时，所述新类目在最低类目层级中。在一种实施方案中，所述确定操作包括确定所述新类目在所述数据类目体系中的最佳类目序列；并且其中，与其他...

【技术保护点】
1.一种构建数据类目体系的方法，其包括：/n获取新类目；/n将所述新类目和所述数据类目体系中的现有类目向量化；/n通过比较向量化的所述新类目与向量化的所述现有类目之间的相似度来确定所述新类目在所述数据类目体系中的位置。/n

【技术特征摘要】
1.一种构建数据类目体系的方法，其包括：
获取新类目；
将所述新类目和所述数据类目体系中的现有类目向量化；
通过比较向量化的所述新类目与向量化的所述现有类目之间的相似度来确定所述新类目在所述数据类目体系中的位置。

2.根据权利要求1所述的构建数据类目体系的方法，其中所述获取操作包括：
从数据资产中读取数据；和
对所述数据进行分词以生成所述新类目。

3.根据权利要求2所述的构建数据类目体系的方法，其中所述数据是表名或字段名。

4.根据权利要求1所述的构建数据类目体系的方法，其中所述确定操作包括确定所述新类目在所述数据类目体系中的最佳类目层级；并且
其中，与其他类目层级相比，所述新类目与所述最佳类目层级的相似度最高。

5.根据权利要求4所述的构建数据类目体系的方法，其中所述新类目与所述最佳类目层级中的全部现有类目的相似度的平均值和标准差的乘积不低于其他类目层级。

6.根据权利要求3所述的构建数据类目体系的方法，其中：
当所述数据是表名时，所述新类目在除最低类目层级之外的类目层级中；并且
当所述数据是字段名时，所述新类目在最低类目层级中。

7.根据权利要求1所述的构建...

【专利技术属性】
技术研发人员：任寅姿，杨春斌，杨析耘，
申请(专利权)人：杭州数澜科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人