本发明专利技术公开了一种欺诈受骗识别方法和系统,所述方法包括:获取消费者个人属性数据和对应的欺诈数据,根据所述个人属性数据和对应欺诈数据构建欺诈暴露特征数据和欺诈受损特征数据;根据所述欺诈暴露特征数据以及对应的个人属性数据、欺诈受损特征数据和对应的个人属性数据分别构建测试集和训练集;利用随机森林分类算法和所述训练集进行模型训练,获取最佳模型参数并得到对应的欺诈暴露模型和欺诈受损模型;利用对应测试集测试分别检测所述欺诈暴露模型和欺诈受损模型。通过双模型机制可以预测出消费者是否遇到欺诈暴露场景和欺诈损失可能,从而在消费过程中给出精准的防欺诈提示,减少消费者的损失。减少消费者的损失。减少消费者的损失。
【技术实现步骤摘要】
一种欺诈受骗识别方法和系统
[0001]本专利技术涉及支付安全
,特别涉及一种欺诈受骗识别方法和系统。
技术介绍
[0002]由于消费者欺诈实际上属于一种对个人特征信息进行攻击从而进行欺诈的行为,但多数相关研究都集中在单个或少数几个因素上,很少将不同类型的因素放在一起进行考虑。现有的金融支付相关的欺诈缺乏准确的判断规则,且现有的判断规则仅限于欺诈方式本身,缺少被欺骗人个人因素的考虑。
技术实现思路
[0003]本专利技术其中一个专利技术目的在于提供一种欺诈受骗识别方法和系统,所述方法和系统通过获取消费者遇到欺诈事实和消费者被欺诈财务损失相关信息,分别构建欺诈暴露模型和欺诈受害模型,通过双模型机制可以预测出消费者是否遇到欺诈暴露场景和欺诈损失可能,从而在消费过程中给出精准的防欺诈提示,减少消费者的损失。
[0004]本专利技术另一个专利技术目的在于提供一种欺诈受骗识别方法和系统,所述方法和系统不仅仅考虑了欺诈类型特征,还结合了消费者自身的资产、收入、负载支出等个人属性信息,因此结合个人属性和欺诈类型的特征构建,利用双模型机制可以更精准地预测消费者遇到欺诈类型和欺诈损失的可能。
[0005]本专利技术另一个专利技术目的在于提供一种欺诈受骗识别方法和系统,所述方法和系统构建的双模型机制,输入的特征还包括了消费者的风险偏好和主观幸福感等个人选择的特征,使得模型可以从更多的维度去训练得到满足真实欺的预测方案。
[0006]为了实现至少一个上述专利技术目的,本专利技术进一步提供一种欺诈受骗识别方法,所述方法包括:
[0007]获取消费者个人属性数据和对应的欺诈数据,根据所述个人属性数据和对应欺诈数据构建欺诈暴露特征数据和欺诈受损特征数据;
[0008]根据所述欺诈暴露特征数据以及对应的个人属性数据、欺诈受损特征数据和对应的个人属性数据分别构建测试集和训练集;
[0009]利用随机森林分类算法和所述训练集进行模型训练,获取最佳模型参数并得到对应的欺诈暴露模型和欺诈受损模型;
[0010]利用对应测试集分别检测所述欺诈暴露模型和欺诈受损模型。
[0011]根据本专利技术其中一个较佳实施例,所述个人属性数据包括每一个参与个人的人口特征、金融财务特征和性格特征的多维度特征。
[0012]根据本专利技术另一个较佳实施例,其中所述欺诈暴露特征数据的构建方法包括:提供包含不同欺诈类型的问卷,用于获取参与个人是否存在问卷中欺诈类型的数据,每一个参与个人答复问卷内容,根据问卷内容将非连续的判断结果构建为0和1的二元特征数据,将问卷每一个单选多分类问题答复结果转换为1
‑
n的特征数据,其中n为选项数量,将连续
数值特征线性缩放到0
‑
1的区间。
[0013]根据本专利技术另一个较佳实施例,其中所述欺诈受损特征模型的构建方法包括:提供包含不同欺诈类型受损问卷,用于获取参与个人是否存在问卷中所列的欺诈类型的受损数据,每一个参与个人答复问卷内容,根据问卷内容将非连续的判断结果构建为0和1的二元特征数据,将问卷每一单选多分类问题答复结果转换为1
‑
n的特征数据,其中n为选项数量,将连续数值特征线性缩放到0
‑
1的区间。
[0014]根据本专利技术另一个较佳实施例,将所述问卷中的多选项多分类题目答复结果转换为虚拟变量,将所述虚拟变量作为所述多选项多分类题目答复结果的特征值。
[0015]根据本专利技术另一个较佳实施例,所述人口特征包括参与个人年龄、性别、受教育程度和职业,所述金融财务特征包括资产、负债、收入和支出,所述性格特征包括风险偏好和主观幸福感,分别按照问卷对应题型构建对应的个人属性特征数据。
[0016]根据本专利技术另一个较佳实施例,所述随机森林分类算法进行模型训练包括如下步骤:
[0017]将N个参与个人欺诈暴露特征数据、个人欺诈损失特征数据和个人属性特征数据作为样本集,将样本集分为测试集和训练集,其中所述欺诈暴露特征数据个人属性特征数据构建一个样本集,个人欺诈损失特征数据和个人属性特征数据构建另一个样本集;
[0018]从训练样本集中有放回随机选取n个参与个人欺诈暴露特征数据、个人欺诈损失特征数据和个人属性特征数据作为n个子样本;
[0019]在所述n个子样本中的X个特征中随机选取y个特征构分别针对不同模型建决策树;
[0020]随机从y个特征中随机选取一个特征Z作为决策树节点的分裂特征;
[0021]计算特征Z条件下样本集N的基尼指数,并循环计算所有y个特征下样本集N的基尼指数,选取基尼指数最小值的特征为最优特征;
[0022]循环从X个特征中随机选取y个特征,并执行对应特征样本集N基尼指数计算,不能分裂后形成决策树;
[0023]循环有放回随机选取n个参与个人欺诈暴露特征数据和个人属性特征数据作为n个子样本,构建对应的随机森林模型。
[0024]根据本专利技术另一个较佳实施例,循环训练多次后获取最佳模型参数,构建最佳随机森林模型,将最佳随机森林模型输出结果作为预测结果。
[0025]为了实现至少一个上述专利技术目的,本专利技术进一步提供一种欺诈受骗识别系统,所述系统执行上述一种欺诈受骗识别方法。
[0026]本专利技术进一步提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述一种欺诈受骗识别方法。
附图说明
[0027]图1显示的是本专利技术一种欺诈受骗识别方法的流程示意图。
[0028]图2显示的是本专利技术中随机森林模型的最佳参数列表。
[0029]图3(a)显示的是本专利技术中欺诈暴露模型(FRE)的测试集预测结果分布示意图。其中每个方框显示十个测试集的预测结果分布,每个方框中间的黑线表示中位数;
“×”
表示
平均值。
[0030]图3(b)显示的是本专利技术中欺诈暴露模型(FRE)的测试集ROC(测试者工作特性)曲线示意图。
[0031]图4(a)显示的是本专利技术中欺诈受害模型(FVR)的测试集预测结果分布示意图。其中每个方框显示十个测试集的预测结果分布。每个方框中间的黑线表示中位数;
“×”
表示平均值。
[0032]图4(b)显示的是本专利技术中欺诈受害模型(FVR)的测试集ROC(测试者工作特性)曲线示意图。
[0033]图5显示的是本专利技术中欺诈暴露模型(FRE)特征重要性示意图。其中按照平均值的降序排列,图中仅呈现最明显的前20个特征,其余特征的趋势大致相同。误差线表示标准偏差,黑点表示平均值,黑色虚线表示中值
[0034]图6显示的是本专利技术中欺诈受害模型(FVR)特征重要性示意图。其中按照平均值的降序排列,图中仅呈现最明显的前20个特征,其余特征的趋势大致相同。误差线表示标准偏差,黑点表示平均值,黑色虚线表示中值。
具体实施方式
[0035]以下描述用于揭露本专利技术以使本领域技术人员能够实现本本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种欺诈受骗识别方法,其特征在于,所述方法包括:获取消费者个人属性数据和对应的欺诈数据,根据所述个人属性数据和对应欺诈数据构建欺诈暴露特征数据和欺诈受损特征数据;根据所述欺诈暴露特征数据以及对应的个人属性数据、欺诈受损特征数据和对应的个人属性数据分别构建测试集和训练集;利用随机森林分类算法和所述训练集进行模型训练,获取最佳模型参数并得到对应的欺诈暴露模型和欺诈受损模型;利用对应测试集分别检测所述欺诈暴露模型和欺诈受损模型。2.根据权利要求1所述的一种欺诈受骗识别方法,其特征在于,所述个人属性数据包括每一个参与个人的人口特征、金融财务特征和性格特征的多维度特征。3.根据权利要求1所述的一种欺诈受骗识别方法,其特征在于,其中所述欺诈暴露特征数据的构建方法包括:提供包含不同欺诈类型的问卷,用于获取参与个人是否存在问卷中欺诈类型的数据,每一个参与个人答复问卷内容,根据问卷内容将非连续的判断结果构建为0和1的二元特征数据,将问卷每一个单选多分类问题答复结果转换为1
‑
n的特征数据,其中n为选项数量,将连续数值特征线性缩放到0
‑
1的区间。4.根据权利要求1所述的一种欺诈受骗识别方法,其特征在于,其中所述欺诈受损特征模型的构建方法包括:提供包含不同欺诈类型受损问卷,用于获取参与个人是否存在问卷中所列的欺诈类型的受损数据,每一个参与个人答复问卷内容,根据问卷内容将非连续的判断结果构建为0和1的二元特征数据,将问卷每一单选多分类问题答复结果转换为1
‑
n的特征数据,其中n为选项数量,将连续数值特征线性缩放到0
‑
1的区间。5.根据权利要求4所述的一种欺诈受骗识别方法,其特征在于,将所述问卷中的多选项多分类题目答复结果转换为虚拟变量,将所述虚拟变量作为所述多选项多分类题目答复结果的特征值。6.根据权利...
【专利技术属性】
技术研发人员:徐流畅,徐亮,夏天舒,刘洪久,张嘉俊,姚俊伟,高强,
申请(专利权)人:信雅达科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。