一种异常数据识别方法、系统、设备及存储介质技术方案

技术编号:31580588 阅读:12 留言:0更新日期:2021-12-25 11:23
本发明专利技术公开了一种异常数据识别方法,涉及数据识别技术领域,一种异常数据识别方法,包括如下步骤:获取待检测的目标数据;判断目标数据为结构化数据或非结构化数据;若目标数据为结构化数据,则将目标数据输入到预先构建的树模型中,由树模型输出识别结果判定目标数据为正常数据或异常数据;若目标数据为非结构化数据,则将目标数据输入到预先构建的神经网络模型中,由神经网络模型输出识别结果判定目标数据为正常时数据或异常数据。本发明专利技术所提供的方法通过对目标数据进行判断、分类,判断目标数据属于结构化数据还是非结构化数据,依据数据类型,将待检测的目标数据送入对应的预测模型中,可提高模型的识别效率和准确率。可提高模型的识别效率和准确率。可提高模型的识别效率和准确率。

【技术实现步骤摘要】
一种异常数据识别方法、系统、设备及存储介质


[0001]本专利技术涉及数据识别
,具体而言,涉及一种异常数据识别方法。

技术介绍

[0002]结构化数据和非结构化数据是大数据的两种类型,这两者之间并不存在真正的冲突。客户如何选择不是基于数据结构,而是基于使用它们的应用程序,关系数据库用于结构化数据,大多数其他类型的应用程序用于非结构化数据。
[0003]在进行异常数据识别时,异常数据的类型可能是结构化数据也可能是非结构化数据,现有技术中未进行数据的区分,而是将两种结构的数据均放到同一分类模型中进行区分,这可能会出现识别效率慢、识别不准确等状况。

技术实现思路

[0004]为了克服上述问题或者至少部分地解决上述问题,本专利技术实施例提供一种异常数据识别方法、系统、设备及存储介质,用于提高异常数据的识别效率。
[0005]本专利技术的实施例是这样实现的:
[0006]第一方面,本专利技术实施例提供一种异常数据识别方法,包括以下步骤:S101、获取待检测的目标数据;S102、判断上述目标数据为结构化数据或非结构化数据;S103、若上述目标数据为结构化数据,则将上述目标数据输入到预先构建的树模型中,由上述树模型输出识别结果判定上述目标数据为正常数据或异常数据;S104、若上述目标数据为非结构化数据,则将上述目标数据输入到预先构建的神经网络模型中,由上述神经网络模型输出识别结果判定上述目标数据为正常时数据或异常数据。
[0007]基于第一方面,在本专利技术一些实施例中,上述判断上述目标数据为结构化数据或非结构化数据包括:构建分类器模型,将上述目标数据输入分类器模型中,由上述分类器模型输出分类结果。
[0008]基于第一方面,在本专利技术一些实施例中,上述树模型的构建包括:S201、获取原始训练样本;S202、对上述原始训练样本进行处理得到目标训练集; S203、基于上述目标训练集进行模型训练得到树模型。
[0009]基于第一方面,在本专利技术一些实施例中,上述对上述原始训练样本进行处理得到目标训练集包括:基于随机孤立森林算法计算上述原始训练样本的异常分值;将上述异常分值与预设的阈值进行对比,根据对比结果对上述原始训练样本进行分类,分类得到正样本和负样本;对上述正样本和上述负样本进行随机组合,形成目标训练集。
[0010]基于第一方面,在本专利技术一些实施例中,上述基于上述目标训练集进行模型训练得到树模型包括:将上述目标训练集随机切分成K等份的训练子集,其中,K为正整数;随机抽取K

1份上述训练子集组合形成模型训练集,对初始二叉树模型进行模型训练;将剩余的上述训练子集作为交叉验证集,对训练后的上述初始树模型进行交叉验证,输出验证结果;根据上述验证结果对上述初始树模型进行迭代更新,直至上述初始树模型收敛,输出收敛
后的树模型。
[0011]基于第一方面,在本专利技术一些实施例中,上述结构化数据包括数字、符号。
[0012]基于第一方面,在本专利技术一些实施例中,上述非结构化数据包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息。
[0013]第二方面,本专利技术实施例提供一种异常数据识别系统,包括:获取模块,用于获取待检测的目标数据;判断模块:用于判断上述目标数据为结构化数据或非结构化数据;第一执行模块:用于将上述结构化数据输入到预先构建的树模型中,根据上述树模型输出的识别结果判定上述目标数据为正常数据或异常数据;第二执行模块:用于将上述非结构化数据,输入到预先构建的神经网络模型中,根据上述神经网络模型输出的识别结果判定上述目标数据为正常时数据或异常数据。
[0014]第三方面,本专利技术实施例提供一种电子设备,上述电子设备包括:至少一个处理器、至少一个存储器和数据总线;其中,上述处理器与上述存储器通过上述数据总线完成相互间的通信;上述存储器存储有可被上述处理器执行的程序指令,上述处理器调用上述程序指令以执行上述一个或多个程序或方法,例如执行:S101、获取待检测的目标数据;S102、判断上述目标数据为结构化数据或非结构化数据;S103、若上述目标数据为结构化数据,则将上述目标数据输入到预先构建的树模型中,由上述树模型输出识别结果判定上述目标数据为正常数据或异常数据;S104、若上述目标数据为非结构化数据,则将上述目标数据输入到预先构建的神经网络模型中,由上述神经网络模型输出识别结果判定上述目标数据为正常时数据或异常数据。
[0015]第四方面,本申请实施例提供一种计算机可读存储介质,上述非暂态计算机可读存储介质存储计算机程序,上述计算机程序使上述计算机执行上述一个或多个程序或方法,例如执行:S101、获取待检测的目标数据;S102、判断上述目标数据为结构化数据或非结构化数据;S103、若上述目标数据为结构化数据,则将上述目标数据输入到预先构建的树模型中,由上述树模型输出识别结果判定上述目标数据为正常数据或异常数据;S104、若上述目标数据为非结构化数据,则将上述目标数据输入到预先构建的神经网络模型中,由上述神经网络模型输出识别结果判定上述目标数据为正常时数据或异常数据。
[0016]与现有技术相比,本申请实施例至少具有以下有益效果:
[0017]通过对目标数据进行判断、分类,判断目标数据属于结构化数据还是非结构化数据,依据数据类型,将待检测的目标数据送入对应的预测模型中,可提高模型的识别效率和准确率。另外,在本申请中可以根据实际情况选择对应领域的训练样本,依据样本训练树模型和神经网络模型,如此可实现多领域的应用。
附图说明
[0018]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
[0019]图1为本申请一实施例提供的一种异常数据识别方法步骤流程示意图;
[0020]图2为本申请另一实施例提供的一种异常数据识别方法步骤流程示意图;
[0021]图3为本申请实施例提供的一种异常数据识别系统的结构框图;
[0022]图4为本申请实施例提供的一种电子设备的结构框图。
[0023]图中:1

处理器;2

存储器;3

数据总线;100

获取模块;200

判断模块;300

第一执行模块;400

第二执行模块。
具体实施方式
[0024]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异常数据识别方法,其特征在于,包括以下步骤:获取待检测的目标数据;判断所述目标数据为结构化数据或非结构化数据;若所述目标数据为结构化数据,则将所述目标数据输入到预先构建的树模型中,由所述树模型输出识别结果判定所述目标数据为正常数据或异常数据;若所述目标数据为非结构化数据,则将所述目标数据输入到预先构建的神经网络模型中,由所述神经网络模型输出识别结果判定所述目标数据为正常时数据或异常数据。2.根据权利要求1所述的异常数据识别方法,其特征在于,所述判断所述目标数据为结构化数据或非结构化数据包括:构建分类器模型,将所述目标数据输入分类器模型中,由所述分类器模型输出分类结果。3.根据权利要求1所述的异常数据识别方法,其特征在于,所述树模型的构建包括:获取原始训练样本;对所述原始训练样本进行处理得到目标训练集;基于所述目标训练集进行模型训练得到树模型。4.根据权利要求3所述的异常数据识别方法,其特征在于,所述对所述原始训练样本进行处理得到目标训练集包括:基于随机孤立森林算法计算所述原始训练样本的异常分值;将所述异常分值与预设的阈值进行对比,根据对比结果对所述原始训练样本进行分类,分类得到正样本和负样本;对所述正样本和所述负样本进行随机组合,形成目标训练集。5.根据权利要求3所述的异常数据识别方法,其特征在于,所述基于所述目标训练集进行模型训练得到树模型包括:将所述目标训练集随机切分成K等份的训练子集,其中,K为正整数;随机抽取K

1份所述训练子集组合...

【专利技术属性】
技术研发人员:马俊波
申请(专利权)人:北京拾味岛信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1