一种基于机器学习的数据目录分类系统技术方案

技术编号：36066860 阅读：11 留言：0更新日期：2022-12-24 10:34

本发明专利技术公开了一种基于机器学习的数据目录分类系统，该系统包括：数据目录获取模块：用于获取数据文件的数据目录；数据目录特征词提取排序模块：用于提取每个数据目录特征词并对特征词排序；细致分类分化储存模块：用于根据排序将数据目录逐渐细致分类储存。本发明专利技术提供的数据目录分类系统,通过提取每个数据目录特征词并对特征词排序进行分类,使用户通过经过分类的数据目录进行数据查询,提高了数据查询的速度和精准性,方便了用户,同时也降低了数据目录查询的计算量,节约了资源。据目录查询的计算量,节约了资源。据目录查询的计算量,节约了资源。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的数据目录分类系统

[0001]本专利技术涉及数据目录
，尤其涉及一种基于机器学习的数据目录分类系统。

技术介绍

[0002]数据目录定义和描述了数据库中的有关信息,包括数据元素名、别名、含义、类型、格式、使用范围及约定、来源、用途以及其他数据的关系等。具体来说数据目录就是关于企业数据资产的一个有序清单。它可以使用元数据来帮助企业管理数据，帮助数据专业人员收集、组织、访问和充实元数据，从而为数据发现和治理提供支持。
[0003]然而，由于数据目录的数据量非常庞大,如果以传统的条列式选择来管理所有数据,将造成使用上的不便。例如,用户只需要查询某一个时间点的某一台服务器上的数据目录,但是由于没有对数据目录进行分类管理,用户得到的结果将会出现很多不相干的数据,如此一来会降低用户查询的速度和精准性。

技术实现思路

[0004]本专利技术提供了一种基于机器学习的数据目录分类系统，以解决上述
技术介绍
中提出的问题。
[0005]为了实现上述目的，本专利技术采用了如下技术方案：
[0006]一种基于机器学习的数据目录分类系统，该系统包括：
[0007]数据目录获取模块：用于获取数据文件的数据目录；
[0008]数据目录特征词提取排序模块：用于提取每个数据目录特征词并对特征词排序；
[0009]细致分类分化储存模块：用于根据排序将数据目录逐渐细致分类储存。
[0010]作为本技术方案的进一步改进方案：，数据目录特征词提取排序模块中特征词排序为...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的数据目录分类系统，其特征在于，该系统包括：数据目录获取模块：用于获取数据文件的数据目录；数据目录特征词提取排序模块：用于提取每个数据目录特征词并对特征词排序；细致分类分化储存模块：用于根据排序将数据目录逐渐细致分类储存。2.根据权利要求1所述的一种基于机器学习的数据目录分类系统，其特征在于，数据目录特征词提取排序模块中特征词排序为将每个数据目录特征词按照关键词权重排序模型排序进行排序。3.根据权利要求2所述的一种基于机器学习的数据目录分类系统，其特征在于，关键词权重排序模型具体生成为：S1，基于提前分类好关键词权重顺序的数据目录，生成目录训练数据集；S2，基于目录训练数据集中各训练数据目录对应的特征词，构建第1权重关键词、第2权重关键词到第N权重关键词对应的决策树，以作为所述基础权重排序器；S3，基于自助采样法从所述训练数据集中选取训练数据，以获取与各所述基础权重排序器对应的训练数据子集；S4，针对每个基础权重排序器，基于对应的训练数据子集对该基础权重排序器进行训练，其中，每个基础权重排序器对应的所述训练数据子集不同；S5，利用训练完成的各所述基础权重排序器分别对所述训练数据集中未被选入训练数据子集的训练数据进行验证，获得验证结果集；S6，利用所述验证结果集对次级关键词权重排序模型进行模型训练，得到所述关键词权重排序模型。4.根据权利要求3所述的一种基于机器学习的数据目录分类系统，其特征在于，数据目录获取模块中，需要对获取的数据...

【专利技术属性】
技术研发人员：王瀚，杨泽明，杨光，陆柏亨，李玮，鲍立飞，
申请(专利权)人：海南数造科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人