一种数据分类方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:37608402 阅读:27 留言:0更新日期:2023-05-18 12:00
本申请公开了一种数据分类方法、装置、电子设备及计算机可读存储介质,该方法包括:获取待分类结构化数据;提取待分类结构化数据中若干类数据分别对应的若干个统计特征;利用统计特征构成输入数据,并将输入数据输入分类模型,得到若干类数据分别对应的数据类型;其中,分类模型包括特征提取网络和分类网络,特征提取网络用于对输入数据进行特征提取,得到神经网络特征;分类网络用于利用神经网络特征进行分类,得到数据类型;利用该方法分类的数据类型更加准确,且适用的待分类结构数据的范围更广,分类效率更高。分类效率更高。分类效率更高。

【技术实现步骤摘要】
一种数据分类方法、装置、电子设备及可读存储介质


[0001]本申请涉及计算机
,特别涉及一种数据分类方法、数据分类装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着大数据时代的到来,全球数据总量以每两年翻一番的速度加速增长,到2021年全球数据总量将超过40ZB(相当于4万亿GB,GB,Gigabyte,十亿字节)。数据的大量增长导致很多数据泄露事件的发生,危害个人、企业、政府和国家的安全。因此,对数据的治理和管控势在必行。数据分级分类作为数据治理、数据安全的核心,可以全面清晰地理清数据资产,对数据资产实现规范化管理,并有利于数据的维护和扩充,对企业有重要的实用价值。当前的数据分级分类,主要依靠人工进行,或者通过设计正则表达式、关键词等方式进行分类。但由于数据量较大,数据类型众多,并且数据日益更新迭代,当前数据分类方式准确性较差,适用的数据类型有限,分类效率较低。

技术实现思路

[0003]有鉴于此,本申请的目的在于提供一种数据分类方法、数据分类装置、电子设备及计算机可读存储介质,提高数据分类的准确性。
[0004]为解决上述技术问题,本申请提供了一种数据分类方法,包括:
[0005]获取待分类结构化数据;
[0006]提取所述待分类结构化数据中若干类数据分别对应的若干个统计特征;
[0007]利用所述统计特征构成输入数据,并将所述输入数据输入分类模型,得到所述若干类数据分别对应的数据类型;
[0008]其中,所述分类模型包括特征提取网络和分类网络,所述特征提取网络用于对所述输入数据进行特征提取,得到神经网络特征;所述分类网络用于利用所述神经网络特征进行分类,得到所述数据类型。
[0009]可选地,所述分类模型的生成过程,包括:
[0010]获取训练结构化数据;
[0011]提取所述训练结构化数据中若干类训练数据分别对应的若干个训练统计特征;
[0012]利用所述训练统计特征构成训练输入数据,并将所述训练输入数据输入所述初始模型,得到训练输出结果;
[0013]利用所述训练输出结果和所述训练结构化数据对应的标签数据计算损失值,并利用所述损失值对所述初始模型进行参数调节;
[0014]若检测到满足训练完成条件,则利用所述初始模型得到所述分类模型。
[0015]可选地,所述利用所述训练输出结果和所述训练结构化数据对应的标签数据计算损失值,包括:
[0016]获取间隔值,并利用所述间隔值、所述训练输出结果和所述训练结构化数据得到
中间间隔数据;
[0017]利用所述中间间隔数据生成所述损失值。
[0018]可选地,所述初始模型包括所述特征提取网络,所述利用所述初始模型得到所述分类模型,包括:
[0019]将所述初始模型与所述分类网络组合得到所述分类模型。
[0020]可选地,所述提取所述待分类结构化数据中若干类数据分别对应的若干个统计特征,包括:
[0021]分别对所述若干类数据进行无效数据过滤,得到若干类初始数据;
[0022]分别对所述若干类初始数据进行统计特征提取,得到所述统计特征。
[0023]可选地,所述分别对所述若干类初始数据进行统计特征提取,得到所述统计特征,包括:
[0024]分别对所述若干类初始数据进行数据采样,得到若干类采样数据;
[0025]获取所述若干类采样数据分别对应的所述统计特征。
[0026]可选地,所述特征提取网络包括第一处理模块、第二处理模块和第三处理模块,所述第一处理模块和所述第二处理模块包括全连接层、激活函数层、随机丢弃层和批归一化层,所述第三处理模块包括所述全连接层、所述激活函数层、所述随机丢弃层;
[0027]所述统计特征经过批归一化层处理后输入所述第一处理模块,得到第一中间特征,所述第一中间特征输入第二处理模块,得到第二中间特征,所述第二中间特征输入所述第三处理模块,得到所述神经网络特征。
[0028]本申请还提供了一种数据分类装置,包括:
[0029]获取模块,用于获取待分类结构化数据;
[0030]特征提取模块,用于提取所述待分类结构化数据中若干类数据分别对应的若干个统计特征;
[0031]分类模块,用于利用所述统计特征构成输入数据,并将所述输入数据输入分类模型,得到所述若干类数据分别对应的数据类型;
[0032]其中,所述分类模型包括特征提取网络和分类网络,所述特征提取网络用于对所述输入数据进行特征提取,得到神经网络特征;所述分类网络用于利用所述神经网络特征进行分类,得到所述数据类型。
[0033]本申请还提供了一种电子设备,包括存储器和处理器,其中:
[0034]所述存储器,用于保存计算机程序;
[0035]所述处理器,用于执行所述计算机程序,以实现上述的数据分类方法。
[0036]本申请还提供了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现上述的数据分类方法。
[0037]本申请提供的数据分类方法,获取待分类结构化数据;提取待分类结构化数据中若干类数据分别对应的若干个统计特征;利用统计特征构成输入数据,并将输入数据输入分类模型,得到若干类数据分别对应的数据类型;其中,分类模型包括特征提取网络和分类网络,特征提取网络用于对输入数据进行特征提取,得到神经网络特征;分类网络用于利用神经网络特征进行分类,得到数据类型。
[0038]可见,该方法中,提取待分类结构数据中各类数据对应的统计特征作为输入数据。
统计特征是统计学的基本概念之一,特征就是要考察的指标,统计特征有数量特征和属性特征之分,其中数量特征又有计量特征和计数特征之分,数量特征可以直接用数值来表示,属性特征不能直接用数值来表示。通过提取统计特征,从多个角度反映数据的特性。分类模型经过训练,能够利用特征提取网络对输入数据进一步进行特征提取,得到更能够表征数据特性、更易于进行分类的神经网络特征。在得到神经网络特征后利用分类网络对其进行处理,得到待分类结构数据中各类数据对应的数据类型。利用该方法分类的数据类型更加准确,且适用的待分类结构数据的范围更广,分类效率更高。
[0039]此外,本申请还提供了一种数据分类装置、电子设备及计算机可读存储介质,同样具有上述有益效果。
附图说明
[0040]为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0041]图1为本申请实施例提供的一种数据分类方法流程图;
[0042]图2为本申请实施例提供的一种具体的分类模型生成过程流程图;
[0043]图3为本申请实施例提供的一种具体的特征提取网络的结构示意图;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分类方法,其特征在于,包括:获取待分类结构化数据;提取所述待分类结构化数据中若干类数据分别对应的若干个统计特征;利用所述统计特征构成输入数据,并将所述输入数据输入分类模型,得到所述若干类数据分别对应的数据类型;其中,所述分类模型包括特征提取网络和分类网络,所述特征提取网络用于对所述输入数据进行特征提取,得到神经网络特征;所述分类网络用于利用所述神经网络特征进行分类,得到所述数据类型。2.根据权利要求1所述的数据分类方法,其特征在于,所述分类模型的生成过程,包括:获取训练结构化数据;提取所述训练结构化数据中若干类训练数据分别对应的若干个训练统计特征;利用所述训练统计特征构成训练输入数据,并将所述训练输入数据输入所述初始模型,得到训练输出结果;利用所述训练输出结果和所述训练结构化数据对应的标签数据计算损失值,并利用所述损失值对所述初始模型进行参数调节;若检测到满足训练完成条件,则利用所述初始模型得到所述分类模型。3.根据权利要求2所述的数据分类方法,其特征在于,所述利用所述训练输出结果和所述训练结构化数据对应的标签数据计算损失值,包括:获取间隔值,并利用所述间隔值、所述训练输出结果和所述训练结构化数据得到中间间隔数据;利用所述中间间隔数据生成所述损失值。4.根据权利要求2所述的数据分类方法,其特征在于,所述初始模型包括所述特征提取网络,所述利用所述初始模型得到所述分类模型,包括:将所述初始模型与所述分类网络组合得到所述分类模型。5.根据权利要求1所述的数据分类方法,其特征在于,所述提取所述待分类结构化数据中若干类数据分别对应的若干个统计特征,包括:分别对所述若干类数据进行无效数据过滤,得到若干类初始数据;分别对所述若干类初始数据进行统计特征提取...

【专利技术属性】
技术研发人员:王晓波张盼尚保林位凯志
申请(专利权)人:深信服科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1