基于机器学习评分模型识别伪冒风险的方法、装置、电子设备制造方法及图纸

技术编号:22566184 阅读:190 留言:0更新日期:2019-11-16 12:30
本发明专利技术涉及一种基于机器学习评分模型识别伪冒风险的方法、装置、电子设备及计算机可读存储介质。该方法包括:获取历史伪冒用户数据集,所述历史伪冒用户数据集包括历史伪冒用户标识的多维度数据;基于所述历史伪冒用户数据集,提取伪冒风险高频发生的共有数据特征;使用所述共有数据特征进行机器学习模型训练,形成评分规则;使用所述评分规则对线上申请用户进行伪冒风险识别。本发明专利技术根据伪冒风险高频发生的共有数据特征,通过机器学习模型从多个纬度刻画线上申请用户的数据形象,实现对线上申请用户的伪冒风险综合评价,能很好的提高伪冒风险的识别率,同时由于模型的输入信息不需要线上申请用户主动提交资料,有效避免用户对风控策略的感知。

Methods, devices and electronic devices for identifying counterfeit risks based on machine learning scoring model

The invention relates to a method, a device, an electronic device and a computer-readable storage medium for identifying counterfeit risks based on a machine learning scoring model. The method includes: obtaining the historical counterfeit user data set, which includes the multi-dimensional data of the historical counterfeit user identification; extracting the common data features of the high-frequency occurrence of the counterfeit risk based on the historical counterfeit user data set; using the common data features to train the machine learning model to form the scoring rules; using the scoring rules to align the lines Apply for user identification of fake risks. According to the common data features of high-frequency occurrence of fake risks, the invention depicts the data image of online application users from multiple latitudes through machine learning model, realizes the comprehensive evaluation of fake risks of online application users, and can improve the identification rate of fake risks. At the same time, the input information of the model does not need the online application users to actively submit data, effectively avoiding the users from Perception of risk control strategy.

【技术实现步骤摘要】
基于机器学习评分模型识别伪冒风险的方法、装置、电子设备
本专利技术涉及一种基于机器学习评分模型识别伪冒风险的方法、装置、电子设备及计算机可读存储介质。
技术介绍
随着互联网金融信贷的普及和发展,业务申请逐渐由线下人工审核转为线上系统自动审批,线上申请为用户提供了便捷的服务,同时也衍生了多类申请风险。伪冒风险正是线上申请需要面对的一项重大风险,传统的线下审核机制通过和申请人进行面签,收取用户材料进行人工确认,用户伪冒难度较大。线上申请时用户资料大多通过手机app直接上传至平台,平台与用户之间的交互较少,直接导致了欺诈用户利用虚假资料进行申请,为了防范伪冒风险,往往会用一些核身技术,比如在用户申请阶段利用人脸识别技术,对用户人脸进行交叉比对、活体认证等。虽然人脸比对、活体认证等技术能够识别出一些非本人申请的伪冒案例,但是人脸信息本身也属于用户主动提交至平台的资料,有经验的欺诈用户往往可以通过屏拍、视频截图、图片动态编辑软件等各种手段轻松绕过人脸识别这一关,进而冒领冒用他人文件资料或身份证件进行贷款申请。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的基于机器学习评分模型识别伪冒风险的方法、装置、电子设备及计算机可读存储介质。依据本专利技术的一个方面,提供了一种基于机器学习评分模型识别伪冒风险的方法,包括:获取历史伪冒用户数据集,所述历史伪冒用户数据集包括历史伪冒用户标识的多维度数据;基于所述历史伪冒用户数据集,提取伪冒风险高频发生的共有数据特征;使用所述共有数据特征进行机器学习模型训练,形成评分规则;使用所述评分规则对线上申请用户进行伪冒风险识别。可选地,所述提取伪冒风险高频发生的共有数据特征,进一步包括:在所述历史伪冒用户数据集的所述多维度数据中提取各个维度中相似或相同的共有数据特征。可选地,所述提取伪冒风险高频发生的共有数据特征,进一步包括:从多个层面对所述共有数据特征作基于有效性的筛选。可选地,所述多个层面进一步包括缺失程度、业务解释性、IV值、单调性中的一种或多种的组合。可选地,所述获取历史伪冒用户数据集,进一步包括:获取历史伪冒用户数据,将历史伪冒用户数据进行去噪预处理后用其创建历史伪冒用户数据集。可选地,所述将历史伪冒用户数据进行去噪预处理后用其创建历史伪冒用户数据集,进一步包括:对所述历史伪冒用户数据执行文本分析、归一化;且/或对所述历史伪冒用户数据执行分箱操作。可选地,所述使用所述共有数据特征进行机器学习模型训练,进一步包括:采用逻辑回归算法进行模型拟合训练,直到得出满足要求的机器学习模型。可选地,所述形成评分规则,进一步包括:所述机器学习模型输出的是伪冒概率,基于所述伪冒概率换算风险分数;所述使用所述评分规则对线上申请用户进行伪冒风险识别,进一步包括:根据所述风险分数执行所述识别操作。可选地,基于所述伪冒概率换算风险评分,进一步包括:对设定评分范围内的风险分数进行分段,为每个分数段事先设置伪冒概率,基于机器学习模型输出伪冒概率对分数段进行匹配。可选地,所述分数段与所述事先设置的伪冒概率呈负相关关系。可选地,所述根据所述风险分数执行所述识别操作,进一步包括:确定处于低分数段的用户存在伪冒风险。可选地,基于所述伪冒概率换算风险评分,进一步包括:基于公式来执行所述换算,式中A、B均为常数项,p为所述机器学习模型输出的伪冒概率,Score为风险评分。可选地,所述多维度数据进一步包括用户的设备信息和行为。可选地,所述多维度数据具体是用户的操作时间、手机设备信息、App端操作的点击行为、App端操作的浏览行为中的一者或多者。依据本专利技术的另一个方面,提供了一种基于机器学习评分模型识别伪冒风险的装置,包括:数据集获取模块,适于获取历史伪冒用户数据集,所述历史伪冒用户数据集适于历史伪冒用户标识的多维度数据;共有数据特征提取模块,适于基于所述历史伪冒用户数据集,提取伪冒风险高频发生的共有数据特征;评分规则生成模块,适于使用所述共有数据特征进行机器学习模型训练,形成评分规则;伪冒风险识别模块,适于使用所述评分规则对线上申请用户进行伪冒风险识别。可选地,所述共有数据特征提取模块,进一步适于:在所述历史伪冒用户数据集的所述多维度数据中提取各个维度中相似或相同的共有数据特征。可选地,所述共有数据特征提取模块,进一步适于:从多个层面对所述共有数据特征作基于有效性的筛选。可选地,所述多个层面进一步包括缺失程度、业务解释性、IV值、单调性中的一种或多种的组合。可选地,所述数据集获取模块,进一步适于:获取历史伪冒用户数据,将历史伪冒用户数据进行去噪预处理后用其创建历史伪冒用户数据集。可选地,所述数据集获取模块,进一步适于:对所述历史伪冒用户数据执行文本分析、归一化;且/或对所述历史伪冒用户数据执行分箱操作。可选地,所述评分规则生成模块,进一步适于:采用逻辑回归算法进行模型拟合训练,直到得出满足要求的机器学习模型。可选地,所述评分规则生成模块,进一步适于:所述机器学习模型输出的是伪冒概率,基于所述伪冒概率换算风险分数;所述伪冒风险识别模块,进一步适于:根据所述风险分数执行所述识别操作。可选地,所述评分规则生成模块,进一步适于:对设定评分范围内的风险分数进行分段,为每个分数段事先设置伪冒概率,基于机器学习模型输出伪冒概率对分数段进行匹配。可选地,所述分数段与所述事先设置的伪冒概率呈负相关关系。可选地,所述伪冒风险识别模块,进一步适于:确定处于低分数段的用户存在伪冒风险。可选地,所述评分规则生成模块,进一步适于:基于公式来执行所述换算,式中A、B均为常数项,p为所述机器学习模型输出的伪冒概率,Score为风险评分。可选地,所述多维度数据进一步适于用户的设备信息和行为。可选地,所述多维度数据具体是用户的操作时间、手机设备信息、App端操作的点击行为、App端操作的浏览行为中的一者或多者。依据本专利技术的另一个方面,提供了一种电子设备,其中,该电子设备包括:处理器;以及,被安排成存储计算机可执行指令的存储器,可执行指令在被执行时使处理器执行上述的方法。依据本专利技术的另一个方面,提供了一种计算机可读存储介质,其中,计算机可读存储介质存储一个或多个程序,一个或多个程序当被处理器执行时,实现上述的方法。有益效果:本专利技术根据伪冒风险高频发生的共有数据特征,通过机器学习模型从多个纬度刻画线上申请用户的数据形象,实现对线上申请用户的伪冒风险综合评价,能很好的提高伪冒风险的识别率,避免像人脸识别环节那样,欺诈用户采取针对性方法进行破解,使得欺诈用户对平台策略的猜测失去了方向,从而保证模型健壮性。同时由于模型的输入信息不需要线上申请用户主动提交资料,有本文档来自技高网...

【技术保护点】
1.一种基于机器学习评分模型识别伪冒风险的方法,其特征在于,包括:/n获取历史伪冒用户数据集,所述历史伪冒用户数据集包括历史伪冒用户标识的多维度数据;/n基于所述历史伪冒用户数据集,提取伪冒风险高频发生的共有数据特征;/n使用所述共有数据特征进行机器学习模型训练,形成评分规则;/n使用所述评分规则对线上申请用户进行伪冒风险识别。/n

【技术特征摘要】
1.一种基于机器学习评分模型识别伪冒风险的方法,其特征在于,包括:
获取历史伪冒用户数据集,所述历史伪冒用户数据集包括历史伪冒用户标识的多维度数据;
基于所述历史伪冒用户数据集,提取伪冒风险高频发生的共有数据特征;
使用所述共有数据特征进行机器学习模型训练,形成评分规则;
使用所述评分规则对线上申请用户进行伪冒风险识别。


2.根据权利要求1所述的方法,其特征在于,所述提取伪冒风险高频发生的共有数据特征,进一步包括:在所述历史伪冒用户数据集的所述多维度数据中提取各个维度中相似或相同的共有数据特征。


3.根据权利要求1~2中任一项所述的方法,其特征在于,所述提取伪冒风险高频发生的共有数据特征,进一步包括:从多个层面对所述共有数据特征作基于有效性的筛选。


4.根据权利要求1~3中任一项所述的方法,其特征在于,所述多个层面进一步包括缺失程度、业务解释性、IV值、单调性中的一种或多种的组合。


5.根据权利要求1~4中任一项所述的方法,其特征在于,所述获取历史伪冒用户数据集,进一步包括:获取历史伪冒用户数据,将历史伪冒用户数据进行去噪预处理后用其创建历史伪冒用户数据集。


6.根据权利要求1~5中任一项所述的方法,其特征在于,所述将历史伪冒用户数据进...

【专利技术属性】
技术研发人员:熊俊孙涛付颖
申请(专利权)人:上海淇馥信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1