当前位置: 首页 > 专利查询>苏州大学专利>正文

一种异常检测训练集的构建方法及装置制造方法及图纸

技术编号:9642638 阅读:100 留言:0更新日期:2014-02-07 01:29
本申请公开了一种异常检测训练集构建方法及装置,该方法将获取到的样本数据集合确定为当前数据集合,依据接收到的各个当前标注指令,在当前数据集合中获取已标注数据,将已标注数据加入第一数据集合,将未标注数据组成第二数据集合,判断异常点数据的个数是否达到预设数值,若是,依据已标记数据和未标记数据生成训练集,若否,依据第一数据集合计算未标注数据的异常点概率,依据异常点概率对所述未标注数据进行排序,并确定为当前数据集合,返回执行获取各个当前标注指令。与现有技术单次计算异常点概率相比,本方法利用已标注数据对未标注数据重新计算异常点概率,依据异常点概率排序后异常点排序前移,可减少标注次数,提高训练集构建效率。

【技术实现步骤摘要】
【专利摘要】本申请公开了一种异常检测训练集构建方法及装置,该方法将获取到的样本数据集合确定为当前数据集合,依据接收到的各个当前标注指令,在当前数据集合中获取已标注数据,将已标注数据加入第一数据集合,将未标注数据组成第二数据集合,判断异常点数据的个数是否达到预设数值,若是,依据已标记数据和未标记数据生成训练集,若否,依据第一数据集合计算未标注数据的异常点概率,依据异常点概率对所述未标注数据进行排序,并确定为当前数据集合,返回执行获取各个当前标注指令。与现有技术单次计算异常点概率相比,本方法利用已标注数据对未标注数据重新计算异常点概率,依据异常点概率排序后异常点排序前移,可减少标注次数,提高训练集构建效率。【专利说明】一种异常检测训练集的构建方法及装置
本申请涉及异常检测
,尤其是一种异常检测训练集的构建方法及装置。
技术介绍
异常检测,是对某个事务活动中产生的大量数据进行检测以确定其中的异常数据,所述异常数据被称为异常点。异常点具有不符合正常数据的分布特征或表现模式,通过分析异常点可以获知事务活动的安全状态,例如:信贷事务中的异常点可能代表一项信贷欺诈,网络通信中的异常点可能代表黑客对电脑的攻击。异常检测的主要方式是,利用预先构建的训练集,使用异常检测算法对所述大量数据进行检测。因此,训练集是所述异常检测方式的基础。专利技术人通过研究发现,现有的训练集构建方式为:获得多个样本数据,所述各个样本数据可能为异常点,也可能为正常点,利用现有检测算法如无监督异常点检测算法计算各个样本数据是异常点的概率,依据所述概率的大小,对所述各个样本数据进行排序后生成样本数据集合。依次获取所述样本数据集合中的样本数据,人工标注所述各个样本数据是正常点或异常点,当标注的样本数据中异常点达到预设的数量时,停止所述构建过程。所述构建方式中单次计算样本数据的异常点概率,计算的异常点概率正确率较低,对样本数据进行标注的次数较多,导致训练集的构建效率较低。
技术实现思路
有鉴于此,本申请提供了一种异常检测训练集的构建方法及装置,以解决现有构建方式中单次计算样本数据的异常点概率,计算的异常点概率正确率较低,对样本数据进行标注的次数较多,导致训练集的构建效率较低的问题。本申请的技术方案如下:一种异常检测训练集的构建方法,包括:获取样本数据集合,并将所述获取到的样本数据集合确定为当前数据集合;获取各个当前标注指令;依据获取到的所述各个当前标注指令,在所述当前数据集合中获取与所述各个当前标注指令相对应的已标注数据,将所述已标注数据加入第一数据集合,将所述当前数据集合中的未标注数据组成第二数据集合;其中,所述已标注数据包括正常点数据或异常点数据;判断所述第一数据集合中异常点数据的个数是否达到预设数值;若是,依据所述第一数据集合中的已标记数据和所述第二数据集合中的未标记数据,生成训练集;若否,依据所述第一数据集合,计算所述第二数据集合中的未标注数据的异常点概率,依据所述异常点概率,对所述第二数据集合中的未标注数据进行排序,将排序后的第二数据集合确定为当前数据集合,返回执行所述获取各个当前标注指令。优选的,所述依据获取到的所述各个当前标注指令,在所述当前数据集合中获取与所述各个当前标注指令相对应的已标注数据,将所述已标注数据加入第一数据集合,将所述当前数据集合中的未标注数据组成第二数据集合,包括:解析获取到的所述各个标注指令,获得与所述各个标注指令相对应的标注;依据标注指令与数据间的对应关系,为所述各个数据添加相对应的标注;其中,所述各个数据是在所述当前数据集合中获取的;将所述各个添加标注的数据确定为已标注数据,并将所述已标注数据加入第一数据集合;其中,所述已标注数据包括正常点数据或异常点数据;将所述当前数据集合中的未标注数据组成第二数据集合。优选的,正常点的标注为1,异常点的标注为0,则:所述依据所述第一数据集合,计算所述第二数据集合中的未标注数据的异常点概率,包括:将所述样本数据集合表示为X=U1, X2,...xn},将第一数据集合表示为L= {χ1; X2,...X1I,将第二数据集合表示为 U= {x1+1, x1+2,...xn};依据所述第一数据集合中各个数据的标注生成标注集合F= Iu1, u2,...uj ;其中,所述ui为I或O ;依据所述第一数据集合、所述第二数据集合及所述标注集合,利用公式【权利要求】1.一种异常检测训练集的构建方法,其特征在于,包括: 获取样本数据集合,并将所述获取到的样本数据集合确定为当前数据集合; 获取各个当前标注指令; 依据获取到的所述各个当前标注指令,在所述当前数据集合中获取与所述各个当前标注指令相对应的已标注数据,将所述已标注数据加入第一数据集合,将所述当前数据集合中的未标注数据组成第二数据集合;其中,所述已标注数据包括正常点数据或异常点数据; 判断所述第一数据集合中异常点数据的个数是否达到预设数值; 若是,依据所述第一数据集合中的已标记数据和所述第二数据集合中的未标记数据,生成训练集; 若否,依据所述第一数据集合,计算所述第二数据集合中的未标注数据的异常点概率,依据所述异常点概率,对所述第二数据集合中的未标注数据进行排序,将排序后的第二数据集合确定为当前数据集合,返回执行所述获取各个当前标注指令。2.根据权利要求1所述的方法,其特征在于,所述依据获取到的所述各个当前标注指令,在所述当前数据集合中获取与所述各个当前标注指令相对应的已标注数据,将所述已标注数据加入第一数据集合,将所述当前数据集合中的未标注数据组成第二数据集合,包括: 解析获取到的所述各个标注指令,获得与所述各个标注指令相对应的标注; 依据标注指令与数据间的对应关系,为所述各个数据添加相对应的标注;其中,所述各个数据是在所述当前数据集合中获取的; 将所述各个添加标注的数据确定为已标注数据,并将所述已标注数据加入第一数据集合;其中,所述已标注数据包括正常点数据或异常点数据; 将所述当前数据集合中的未标注数据组成第二数据集合。3.根据权利要求2所述的方法,其特征在于,正常点的标注为1,异常点的标注为O,则: 所述依据所述第一数据集合,计算所述第二数据集合中的未标注数据的异常点概率,包括: 将所述样本数据集合表示为X=U1, χ2,...χη},将第一数据集合表示为L= {χ1; X2,...X1I,将第二数据集合表示为 U= {x1+1, x1+2,...xn}; 依据所述第一数据集合中各个数据的标注生成标注集合F=Iu1, U2,...uj ;其中,所述Ui为I或O ; 依据所述第一数据集合、所述第二数据集合及所述标注集合,利用公式 4.根据权利要求1所述的方法,其特征在于,当所述当前标注指令为多个时,则所述获取各个当前标注指令,包括: 在所述当前数据集合中获取多个概率大于等于预设阈值的数据,生成备选数据集合;依据所述备选数据集合及预设值,利用聚类算法,在所述备选数据集合中获取K个数据;其中,所述预设值为大于I的整数,所述K值与所述预设值相同; 将所述K个数据作为待标注数据; 依据所述待标注数据,获取当前标注指令。5.一种异常检测训练集的构建装置,其特征在于,包括: 当前数据本文档来自技高网
...

【技术保护点】
一种异常检测训练集的构建方法,其特征在于,包括:获取样本数据集合,并将所述获取到的样本数据集合确定为当前数据集合;获取各个当前标注指令;依据获取到的所述各个当前标注指令,在所述当前数据集合中获取与所述各个当前标注指令相对应的已标注数据,将所述已标注数据加入第一数据集合,将所述当前数据集合中的未标注数据组成第二数据集合;其中,所述已标注数据包括正常点数据或异常点数据;判断所述第一数据集合中异常点数据的个数是否达到预设数值;若是,依据所述第一数据集合中的已标记数据和所述第二数据集合中的未标记数据,生成训练集;若否,依据所述第一数据集合,计算所述第二数据集合中的未标注数据的异常点概率,依据所述异常点概率,对所述第二数据集合中的未标注数据进行排序,将排序后的第二数据集合确定为当前数据集合,返回执行所述获取各个当前标注指令。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵朋朋周徐吴健辛洁鲜学丰崔志明
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1