This application provides a data type identification, model training method, apparatus and computer equipment, including the model training method: obtaining the first sample data set, set of anomaly detection models are trained using the first sample data; detection model from second sample data detect abnormal abnormal sample data set through the use of the abnormal sample data set for training classification model. This example can reduce the scoring events of the classification model, and also provide a relatively balanced sample data set for training, and get a higher accuracy classification model. The specific application, to identify the data input to the anomaly detection model, can quickly distinguish the first data for other data beyond the first data anomaly detection model to identify the input to the classification model for recognition, online identification relatively fast speed data.
【技术实现步骤摘要】
数据类型的识别、模型训练、风险识别方法、装置及设备
本申请涉及数据分析
,尤其涉及数据类型的识别、模型训练、风险识别方法、装置及设备。
技术介绍
在数据分析领域中,经常需要识别数据的类型。例如,识别用户账户是否被盗用、识别交易是否为风险交易、识别用户行为是否为欺诈行为等等。相关技术中,通常根据历史数据确定黑白样本,其中,白样本表示历史数据中正常的一类样本,黑样本表示历史数据中出现账户盗用、高风险交易或欺诈行为等等事件的另一类样本。之后可基于分类算法,利用黑白样本训练得到分类器。然而现实生活中,相对于正常事件,账户盗用、高风险或欺诈行为的事件的出现概率较低,因此,黑白样本在多数的场景下都是严重的不平衡,黑样本占总体样本的比例较低,因此会给分类器的训练带来较大挑战,分类器的识别准确率可能较低。
技术实现思路
为克服相关技术中存在的问题,本申请提供了数据类型的识别、模型训练、风险识别方法、装置及设备。一种数据类型的识别方法,用于识别数据为第一类数据或第二类数据,所述方法包括:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。可选的,所述异常检测模型通过如下方式预先训练得到:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;利用所述第一样本数据集对异常检测模型进行训练。可选的,所述分类模型通过如下方式预先训练得到:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本 ...
【技术保护点】
一种数据类型的识别方法,用于识别数据为第一类数据或第二类数据,所述方法包括:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。
【技术特征摘要】
1.一种数据类型的识别方法,用于识别数据为第一类数据或第二类数据,所述方法包括:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。2.根据权利要求1所述的方法,所述异常检测模型通过如下方式预先训练得到:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;利用所述第一样本数据集对异常检测模型进行训练。3.根据权利要求2所述的方法,所述分类模型通过如下方式预先训练得到:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。4.根据权利要求1所述的方法,在利用所述异常样本数据集对所述分类模型进行训练前,所述方法还包括:基于特征优化算法优化所述异常样本数据集。5.一种模型训练方法,用于训练异常检测模型和分类模型;所述异常检测模型用于检测出第一类数据;所述分类模型用于对异常检测模型检测出的第一类数据之外的其他数据进行分类;所述方法包括:通过如下方式训练所述异常检测模型:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据;利用所述第一样本数据集对异常检测模型进行训练;通过如下方式训练所述分类模型:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对分类模型进行训练。6.根据权利要求5所述的方法,在利用所述异常样本数据集对分类模型进行训练前,所述方法还包括:基于特征优化算法优化所述异常样本数据集。7.一种风险识别方法,用于识别数据为安全数据或风险数据,所述方法包括:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常;若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。8.根据权利要求7所述的方法,所述异常检测模型通过如下方式预先训练得到:获取第一样本数据集,所述第一样本数据集中安全数据的数量大于风险数据的数量;利用所述第一样本数据集对异常检测模型进行训练。9.根据权利要求7所述的方法,所述分类模型通过如下方式预先训练得到:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。10.一种数据类型的识别装置,用于识别数据为第一类数据或第二类数据,所述装置包括:数据获取模块,用于:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;类型确定模块,用于:将异常检测模型识别出的第一类数据之外的其他数据输入到分类...
【专利技术属性】
技术研发人员:程羽,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。