一种基于机器学习的数据目录分类系统技术方案

技术编号:36066860 阅读:11 留言:0更新日期:2022-12-24 10:34
本发明专利技术公开了一种基于机器学习的数据目录分类系统,该系统包括:数据目录获取模块:用于获取数据文件的数据目录;数据目录特征词提取排序模块:用于提取每个数据目录特征词并对特征词排序;细致分类分化储存模块:用于根据排序将数据目录逐渐细致分类储存。本发明专利技术提供的数据目录分类系统,通过提取每个数据目录特征词并对特征词排序进行分类,使用户通过经过分类的数据目录进行数据查询,提高了数据查询的速度和精准性,方便了用户,同时也降低了数据目录查询的计算量,节约了资源。据目录查询的计算量,节约了资源。据目录查询的计算量,节约了资源。

【技术实现步骤摘要】
一种基于机器学习的数据目录分类系统


[0001]本专利技术涉及数据目录
,尤其涉及一种基于机器学习的数据目录分类系统。

技术介绍

[0002]数据目录定义和描述了数据库中的有关信息,包括数据元素名、别名、含义、类型、格式、使用范围及约定、来源、用途以及其他数据的关系等。具体来说数据目录就是关于企业数据资产的一个有序清单。它可以使用元数据来帮助企业管理数据,帮助数据专业人员收集、组织、访问和充实元数据,从而为数据发现和治理提供支持。
[0003]然而,由于数据目录的数据量非常庞大,如果以传统的条列式选择来管理所有数据,将造成使用上的不便。例如,用户只需要查询某一个时间点的某一台服务器上的数据目录,但是由于没有对数据目录进行分类管理,用户得到的结果将会出现很多不相干的数据,如此一来会降低用户查询的速度和精准性。

技术实现思路

[0004]本专利技术提供了一种基于机器学习的数据目录分类系统,以解决上述
技术介绍
中提出的问题。
[0005]为了实现上述目的,本专利技术采用了如下技术方案:
[0006]一种基于机器学习的数据目录分类系统,该系统包括:
[0007]数据目录获取模块:用于获取数据文件的数据目录;
[0008]数据目录特征词提取排序模块:用于提取每个数据目录特征词并对特征词排序;
[0009]细致分类分化储存模块:用于根据排序将数据目录逐渐细致分类储存。
[0010]作为本技术方案的进一步改进方案:,数据目录特征词提取排序模块中特征词排序为将每个数据目录特征词按照关键词权重排序模型排序进行排序。
[0011]作为本技术方案的进一步改进方案:关键词权重排序模型具体生成为:
[0012]S1,基于提前分类好关键词权重顺序的数据目录,生成目录训练数据集;
[0013]S2,基于目录训练数据集中各训练数据目录对应的特征词,构建第1权重关键词、第2权重关键词到第N权重关键词对应的决策树,以作为所述基础权重排序器;
[0014]S3,基于自助采样法从所述训练数据集中选取训练数据,以获取与各所述基础权重排序器对应的训练数据子集;
[0015]S4,针对每个基础权重排序器,基于对应的训练数据子集对该基础权重排序器进行训练,其中,每个基础权重排序器对应的所述训练数据子集不同;
[0016]S5,利用训练完成的各所述基础权重排序器分别对所述训练数据集中未被选入训练数据子集的训练数据进行验证,获得验证结果集;
[0017]S6,利用所述验证结果集对次级关键词权重排序模型进行模型训练,得到所述关键词权重排序模型。
[0018]作为本技术方案的进一步改进方案:数据目录获取模块中,需要对获取的数据目录进行中文分词,剔除无用的停用词。
[0019]作为本技术方案的进一步改进方案:所述数据目录获取模块获取的数据目录包括本地数据库中所有目录。
[0020]作为本技术方案的进一步改进方案:细致分类分化储存模块包括多个第一分类储存库、第二分类储存库和第三分类储存库,每个第一分类储存库用于存储对应所有第一权重关键词相同的数据目录。
[0021]作为本技术方案的进一步改进方案:每个第一分类储存库内包括多个第二分类储存库,每个第二分类储存库用于存储该第一分类储存库中对应所有第二权重关键词相同的数据目录。
[0022]作为本技术方案的进一步改进方案:每个第二分类储存库内包括多个第三分类储存库,每个第三分类储存库用于存储该第二分类储存库中对应所有第三权重关键词相同的数据目录。
[0023]本专利技术实施例还提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的基于机器学习的数据目录分类系统。
[0024]本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任一项所述的基于机器学习的数据目录分类系统。
[0025]与现有技术相比,本专利技术的有益效果是:
[0026]相较于现有技术,本专利技术提供的数据目录分类系统,通过提取每个数据目录特征词并对特征词排序进行分类,使用户通过经过分类的数据目录进行数据查询,提高了数据查询的速度和精准性,方便了用户,同时也降低了数据目录查询的计算量,节约了资源。
[0027]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,并可依照说明书的内容予以实施,以下以本专利技术的较佳实施例并配合附图详细说明如后。本专利技术的具体实施方式由以下实施例及其附图详细给出。
附图说明
[0028]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0029]图1为本专利技术提出的一种基于机器学习的数据目录分类方法的较佳实施例流程示意图;
[0030]图2为本专利技术提出的一种基于机器学习的数据目录分类系统中关键词权重排序模型生成流程示意图;
[0031]图3是本专利技术提供的一种终端设备的一个优选实施例的结构示意图。
具体实施方式
[0032]以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。在下列段落中参照附图以举例方式更具体地描述本专利技术。根据
下面说明和权利要求书,本专利技术的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本专利技术实施例的目的。
[0033]需要说明的是,当组件被称为“固定于”另一个组件,它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“连接”另一个组件,它可以是直接连接到另一个组件或者可能同时存在居中组件。当一个组件被认为是“设置于”另一个组件,它可以是直接设置在另一个组件上或者可能同时存在居中组件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
[0034]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0035]请参阅图1~3,本专利技术实施例中,一种基于机器学习的数据目录分类系统,该系统包括:
[0036]数据目录获取模块:用于获取数据文件的数据目录,数据目录获取模块获取的数据目录包括本地数据库中所有目录;
[0037]数据目录特征词提取排序模块:用于提取每个数据目录特征词并对特征词排序;
[0038]细致分类分化储存模块:用于根据排序将数据目录逐渐细致分类储存。
[0039]具体的,数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的数据目录分类系统,其特征在于,该系统包括:数据目录获取模块:用于获取数据文件的数据目录;数据目录特征词提取排序模块:用于提取每个数据目录特征词并对特征词排序;细致分类分化储存模块:用于根据排序将数据目录逐渐细致分类储存。2.根据权利要求1所述的一种基于机器学习的数据目录分类系统,其特征在于,数据目录特征词提取排序模块中特征词排序为将每个数据目录特征词按照关键词权重排序模型排序进行排序。3.根据权利要求2所述的一种基于机器学习的数据目录分类系统,其特征在于,关键词权重排序模型具体生成为:S1,基于提前分类好关键词权重顺序的数据目录,生成目录训练数据集;S2,基于目录训练数据集中各训练数据目录对应的特征词,构建第1权重关键词、第2权重关键词到第N权重关键词对应的决策树,以作为所述基础权重排序器;S3,基于自助采样法从所述训练数据集中选取训练数据,以获取与各所述基础权重排序器对应的训练数据子集;S4,针对每个基础权重排序器,基于对应的训练数据子集对该基础权重排序器进行训练,其中,每个基础权重排序器对应的所述训练数据子集不同;S5,利用训练完成的各所述基础权重排序器分别对所述训练数据集中未被选入训练数据子集的训练数据进行验证,获得验证结果集;S6,利用所述验证结果集对次级关键词权重排序模型进行模型训练,得到所述关键词权重排序模型。4.根据权利要求3所述的一种基于机器学习的数据目录分类系统,其特征在于,数据目录获取模块中,需要对获取的数据...

【专利技术属性】
技术研发人员:王瀚杨泽明杨光陆柏亨李玮鲍立飞
申请(专利权)人:海南数造科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1