数据类型的识别、模型训练、风险识别方法、装置及设备制造方法及图纸

技术编号:16644721 阅读:22 留言:0更新日期:2017-11-26 17:09
本申请提供一种数据类型的识别、模型训练方法、装置及计算机设备,该模型训练方法包括:获取第一样本数据集,利用所述第一样本数据集对异常检测模型进行训练;通过所述异常检测模型从第二样本数据集中检测出异常样本数据集,利用所述异常样本数据集对分类模型进行训练。本实施例能降低分类模型的打分事件量,也能提供相对平衡的样本数据集进行训练,得到准确率较高的分类模型。具体应用时,待识别数据先输入至异常检测模型中,能快速区分出是否为第一类数据,对于异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,在线进行数据识别速度较快。

Data type identification, model training, risk identification method, device and equipment

This application provides a data type identification, model training method, apparatus and computer equipment, including the model training method: obtaining the first sample data set, set of anomaly detection models are trained using the first sample data; detection model from second sample data detect abnormal abnormal sample data set through the use of the abnormal sample data set for training classification model. This example can reduce the scoring events of the classification model, and also provide a relatively balanced sample data set for training, and get a higher accuracy classification model. The specific application, to identify the data input to the anomaly detection model, can quickly distinguish the first data for other data beyond the first data anomaly detection model to identify the input to the classification model for recognition, online identification relatively fast speed data.

【技术实现步骤摘要】
数据类型的识别、模型训练、风险识别方法、装置及设备
本申请涉及数据分析
,尤其涉及数据类型的识别、模型训练、风险识别方法、装置及设备。
技术介绍
在数据分析领域中,经常需要识别数据的类型。例如,识别用户账户是否被盗用、识别交易是否为风险交易、识别用户行为是否为欺诈行为等等。相关技术中,通常根据历史数据确定黑白样本,其中,白样本表示历史数据中正常的一类样本,黑样本表示历史数据中出现账户盗用、高风险交易或欺诈行为等等事件的另一类样本。之后可基于分类算法,利用黑白样本训练得到分类器。然而现实生活中,相对于正常事件,账户盗用、高风险或欺诈行为的事件的出现概率较低,因此,黑白样本在多数的场景下都是严重的不平衡,黑样本占总体样本的比例较低,因此会给分类器的训练带来较大挑战,分类器的识别准确率可能较低。
技术实现思路
为克服相关技术中存在的问题,本申请提供了数据类型的识别、模型训练、风险识别方法、装置及设备。一种数据类型的识别方法,用于识别数据为第一类数据或第二类数据,所述方法包括:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。可选的,所述异常检测模型通过如下方式预先训练得到:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;利用所述第一样本数据集对异常检测模型进行训练。可选的,所述分类模型通过如下方式预先训练得到:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。可选的,在利用所述异常样本数据集对所述分类模型进行训练前,所述方法还包括:基于特征优化算法优化所述异常样本数据集。一种模型训练方法,用于训练异常检测模型和分类模型;所述异常检测模型用于检测输入数据出第一类数据;所述分类模型用于对异常检测模型检测出的第一类数据之外的其他数据进行分类;所述方法包括:通过如下方式训练所述异常检测模型:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据;利用所述第一样本数据集对异常检测模型进行训练;通过如下方式训练所述分类模型:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。可选的,在利用所述异常样本数据集对所述分类模型进行训练前,所述方法还包括:基于特征优化算法优化所述异常样本数据集。一种风险识别方法,用于识别数据为安全数据或风险数据,所述方法包括:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常数据;若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。一种数据类型的识别装置,用于识别数据为第一类数据或第二类数据,所述装置包括:数据获取模块,用于:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;类型确定模块,用于:将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。可选的,还包括异常检测模型训练模块,用于:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;利用所述第一样本数据集对异常检测模型进行训练。可选的,还包括分类模型训练模块,用于:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。可选的,所述装置还包括优化模块,用于在利用所述异常样本数据集对所述分类模型进行训练前,基于特征优化算法优化所述异常样本数据集。一种模型训练装置,用于训练异常检测模型和分类模型;所述异常检测模型用于检测输入数据为第一类数据;所述分类模型用于对异常检测模型检测出的第一类数据之外的其他数据进行分类;所述装置包括:异常检测模型训练模块,用于:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据;利用所述第一样本数据集对异常检测模型进行训练;分类模型训练模块,用于:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。可选的,所述装置还包括优化模块,用于在利用所述异常样本数据集对所述分类模型进行训练前,基于特征优化算法优化所述异常样本数据集。一种风险识别装置,用于识别数据为安全数据或风险数据,所述装置包括:数据获取模块,用于:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常;风险确定模块,用于:若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。一种计算机设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。一种计算机设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:通过如下方式训练所述异常检测模型:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据;利用所述第一样本数据集对异常检测模型进行训练;通过如下方式训练所述分类模型:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。一种计算机设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常数据;若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。本申请的实施例提供的技术方案可以包括以下有益效果:本申请实施例中,在训练过程中,首先利用第一样本数据集训练得到异常检测模型,基于此,全量的第二样本数据集可以筛选出异常样本数据集。由于分类模型是利用异常检测模型识别出的异常样本数据集训练得到,因此对于分类模型,可以剔除大部分的第一类数据,快速区分出相比较大多数样本而言异常的样本,而剩余的异常样本可能包含了绝大多数的第二类数据,以及部分第一类数据。之后利用异常样本进行分类模型训练,既可以降低最终分类模型的打分事件量,又可以提供相对平衡的样本数据集供分类模型训练,由于异常样本数据集中第一类数据和第二类数据的比例相对均衡,因此能够训练得到准确率较高的分类模型,因此可以结合这两个部分提升数据识别能力。在具体应用时,可以线上部署异常检测模型和分类模型,待识别数据首先输入至异常检测模型中,从而可以快速区分出该本文档来自技高网...
数据类型的识别、模型训练、风险识别方法、装置及设备

【技术保护点】
一种数据类型的识别方法,用于识别数据为第一类数据或第二类数据,所述方法包括:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。

【技术特征摘要】
1.一种数据类型的识别方法,用于识别数据为第一类数据或第二类数据,所述方法包括:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。2.根据权利要求1所述的方法,所述异常检测模型通过如下方式预先训练得到:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;利用所述第一样本数据集对异常检测模型进行训练。3.根据权利要求2所述的方法,所述分类模型通过如下方式预先训练得到:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。4.根据权利要求1所述的方法,在利用所述异常样本数据集对所述分类模型进行训练前,所述方法还包括:基于特征优化算法优化所述异常样本数据集。5.一种模型训练方法,用于训练异常检测模型和分类模型;所述异常检测模型用于检测出第一类数据;所述分类模型用于对异常检测模型检测出的第一类数据之外的其他数据进行分类;所述方法包括:通过如下方式训练所述异常检测模型:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据;利用所述第一样本数据集对异常检测模型进行训练;通过如下方式训练所述分类模型:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对分类模型进行训练。6.根据权利要求5所述的方法,在利用所述异常样本数据集对分类模型进行训练前,所述方法还包括:基于特征优化算法优化所述异常样本数据集。7.一种风险识别方法,用于识别数据为安全数据或风险数据,所述方法包括:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常;若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。8.根据权利要求7所述的方法,所述异常检测模型通过如下方式预先训练得到:获取第一样本数据集,所述第一样本数据集中安全数据的数量大于风险数据的数量;利用所述第一样本数据集对异常检测模型进行训练。9.根据权利要求7所述的方法,所述分类模型通过如下方式预先训练得到:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。10.一种数据类型的识别装置,用于识别数据为第一类数据或第二类数据,所述装置包括:数据获取模块,用于:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;类型确定模块,用于:将异常检测模型识别出的第一类数据之外的其他数据输入到分类...

【专利技术属性】
技术研发人员:程羽
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1