一种数据驱动的车险欺诈识别方法技术

技术编号:25482242 阅读:56 留言:0更新日期:2020-09-01 23:02
本发明专利技术涉及一种数据驱动的车险欺诈识别方法,获取车险理赔历史数据的数据集;对初始的训练数据通过递归特征消除与交叉验证的方式进行特征的选择;采用梯度提升决策树算法对训练数据进行模型训练,将训练生成的模型用于测试数据进行预测;对训练好的模型进行调参,并利用准确率进行评估。本发明专利技术运用梯度提升决策树算法建立车险欺诈识别模型,并以此构建车险欺诈识别算法,可以给出具体案例是否疑似欺诈的概率值,还可以让使用者看到理赔的相关重要指标以及包含的重要性,弥补现有技术的不足。

【技术实现步骤摘要】
一种数据驱动的车险欺诈识别方法
本专利技术涉及用于识别保险欺诈的数据处理技术,特别涉及一种数据驱动的车险欺诈识别方法。
技术介绍
随着汽车数量的增加,每年因交通事故造成的财产损失、人员伤亡逐年上升,汽车的增多为人们的生活引入了更多、更大的风险。机动车辆保险为车辆所有者提供了机动车因意外事故造成的车辆财产损失保障的同时,也为因意外事故导致的人身伤亡提供经济给付。然而,机动车辆保险骗赔现象的普遍存在。由于投保人和保险人之间信息的不对称,机动车辆保险的骗赔已经成为机动车辆保险发展的主要障碍。如果具有良好的欺诈检测和预防能力管理系统,保险公司就可以提高客户满意度,减少损失调整费用。目前常用于检测欺诈索赔的方法,是使用自己的指令来分析数据。为此,保险公司的人员需要复杂而耗时的调查,并且要处理不同的知识领域,而指令设置、数据分析等的效率和准确率仍有待提升。
技术实现思路
本专利技术的目的在于提供一种数据驱动的车险欺诈识别方法,从历史车险理赔数据集出发,运用梯度提升决策树算法建立车险欺诈模型,实现车辆保险欺诈识别。为了达到上述目的,本专利技术的技术方案是提供一种数据驱动的车险欺诈识别方法:对来自于车险理赔历史数据的数据集,运用梯度提升决策树算法建立车险欺诈识别模型,进而构建车险欺诈识别算法;其中,对初始的训练数据,通过递归特征消除与交叉验证的方式进行特征的选择,采用的基模型为决策树,使用信息熵来进行特征的选择和划分;采用梯度提升决策树算法对训练数据进行模型训练,并且将训练生成的模型用于测试数据进行预测;对训练好的模型进行调参,包含对梯度提升决策树算法的分类器的步长、迭代次数、决策树最大深度、内部节点再划分所需最小样本数、叶子节点最少样本数进行调参,用调整后的参数拟合数据;利用准确率对模型预测的结果进行评估。示例地,来自于车险理赔历史数据的数据集中,每一条原始数据包含了多个数据项以及是否为欺诈的认定。示例地,对数据集进行预处理,包含:删除无用的数据项,对数据集进行划分,得到初始的数据表;对缺失值进行填补,对时间数据进行序列化处理。示例地,对类别型变量无法直接处理的数据项,采用one-hot编码方式进行编码。示例地,采用Z-score标准化,将数据转换到均值为0,标准差为1的分布中。示例地,特征提取时,通过coef_属性或者feature_importances_属性来提供特征重要性的信息。示例地,在调参时,选择一个较小的步长来网格搜索最好的迭代次数;对决策树最大深度、内部节点再划分所需最小样本数进行网格搜索;确定决策树深度;将内部节点再划分所需最小样本数、叶子节点最少样本数一起调参;将调整的参数放到GBDT类里面,用调整好的参数拟合数据。示例地,对模型预测的结果做评估时,准确率=(TP+TN)/(TP+FN+FP+TN);其中TP、FN分别为真实类别为正类,预测结果为正类、负类的数目;FP、TN分别为真实类别为负类,预测结果为正类、负类的数目。示例地,车险欺诈识别算法的输入是车险理赔信息,该算法辨识车险理赔是否存在欺诈,以概率形式输出结果。机器学习技术在精准识别和预防欺诈两方面都对保险反欺诈工作起到了十分积极的推动作用。现阶段机器学习技术的反欺诈应用主要是根据目标建立相关模型,之后通过设置将欺诈案件中的特征系统化,运用算法来依靠定量方式评估理赔案件中欺诈风险的级别。这种方式可以极大地提高欺诈风险识别的准确性和效率,同时还可以为保险公司节省大量的人力成本。与现有技术相比,本专利技术的优点在于:1、以Logit离散模型为代表的统计回归方法,往往给出的是一组欺诈识别的指标及对应权重,可以给保险理赔处理人员指出面对每个索赔案例时,应该从哪几项有效信息入手。但是统计回归方法一般不给出具体某个案例是疑似欺诈的概率值,而本专利技术使用的GBDT算法可以弥补这项不足。2、以神经网络模型为代表的机器学习方法,由于复杂的隐含层,欺诈预测结果的使用者往往只能获得一个预测值,却无从知晓这个结果是基于什么索赔指标及权重做出的判断,不利于欺诈,模型的扩展。本专利技术采用的方法可以让使用者看到理赔的相关重要指标以及包含的重要性。附图说明图1是本专利技术所述数据驱动的车险欺诈识别方法的流程示意图;图2是本专利技术建立车险欺诈模型的示意图。具体实施方式如图1、图2所示,本专利技术提供一种数据驱动的车险欺诈识别方法,包括如下步骤:S1、原始数据集的获取:获取某保险公司的车险理赔历史数据,每一条车险理赔保险数据中都包含了N个特征以及是否是欺诈的认定;例如,获得的原始数据中,包含有:时间、事故发生地、性别、婚姻状况、年纪、责任方、车辆类型、车辆使用时间、是否欺诈、历史索赔数量、目击证人、代理商类型、名下所属车辆数量等信息。S2、原始数据集预处理:对数据集中的各数据项进行预处理,如删除一些无用的数据项,比如ID、月份、年份等,然后对数据集进行划分,得到初始的数据表;然后,再对原始数据中的异常值进行处理,填补缺失值,对时间数据进行序列化处理等。S3、数据编码:对于数据表中的一些数据项的类别型变量无法直接处理,比如说性别、车辆类型等,采用one-hot编码方式进行编码,将此时的数据表中的各数据项作为特征项。S4、特征项标准化:数据表中的各特征项具有不同的量纲和数量级,与其他特征项之间的水平相差较大,直接进行分析的话会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始特征项进行标准化处理。Z-score标准化:对原始数据的均值mean和标准差std进行数据的标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1。转换函数:其中μ为所有样本数据的均值,σ为所有样本数据的标准差。本专利技术首先对训练数据(traindata)进行数据的标准化,然后对剩余的数据(testData)使用同样的均值、方差、最大最小值等指标进行转换transform(testData),从而保证对训练数据、剩余数据的处理方式相同。S5、特征提取:特征提取的目的是筛选出更好的特征,获取更好的训练数据。因为好的特征具有更强的灵活性,可以用简单的模型做训练,更可以得到优秀的结果。本专利技术采用递归特征消除和交叉验证(RFECV)的方法。递归消除特征法使用一个基模型来进行多轮训练,每轮训练后,移除若干权值系数的特征,再基于新的特征集进行下一轮训练,RFECV通过交叉验证的方式执行RFE(递归特征消除),以此来选择最佳数量的特征。本专利技术采用的基模型为决策树,使用信息熵来进行特征的选择和划分,通过coef_属性或者feature_importances_属性来提供feature(特征)重要性的信息。本例中,最终选择的特征数量为6个,分别为:发本文档来自技高网...

【技术保护点】
1.一种数据驱动的车险欺诈识别方法,其特征在于,/n对来自于车险理赔历史数据的数据集,运用梯度提升决策树算法建立车险欺诈识别模型,进而构建车险欺诈识别算法;/n其中,对初始的训练数据,通过递归特征消除与交叉验证的方式进行特征的选择,采用的基模型为决策树,使用信息熵来进行特征的选择和划分;/n采用梯度提升决策树算法对训练数据进行模型训练,并且将训练生成的模型用于测试数据进行预测;/n对训练好的模型进行调参,包含对梯度提升决策树算法的分类器的步长、迭代次数、决策树最大深度、内部节点再划分所需最小样本数、叶子节点最少样本数进行调参,用调整后的参数拟合数据;利用准确率对模型预测的结果进行评估。/n

【技术特征摘要】
1.一种数据驱动的车险欺诈识别方法,其特征在于,
对来自于车险理赔历史数据的数据集,运用梯度提升决策树算法建立车险欺诈识别模型,进而构建车险欺诈识别算法;
其中,对初始的训练数据,通过递归特征消除与交叉验证的方式进行特征的选择,采用的基模型为决策树,使用信息熵来进行特征的选择和划分;
采用梯度提升决策树算法对训练数据进行模型训练,并且将训练生成的模型用于测试数据进行预测;
对训练好的模型进行调参,包含对梯度提升决策树算法的分类器的步长、迭代次数、决策树最大深度、内部节点再划分所需最小样本数、叶子节点最少样本数进行调参,用调整后的参数拟合数据;利用准确率对模型预测的结果进行评估。


2.如权利要求1所述数据驱动的车险欺诈识别方法,其特征在于,
来自于车险理赔历史数据的数据集中,每一条原始数据包含了多个数据项以及是否为欺诈的认定。


3.如权利要求1所述数据驱动的车险欺诈识别方法,其特征在于,
对数据集进行预处理,包含:删除无用的数据项,对数据集进行划分,得到初始的数据表;对缺失值进行填补,对时间数据进行序列化处理。


4.如权利要求3所述数据驱动的车险欺诈识别方法,其特征在于,
对类别型变量无法直接处理的数据项,采用one-hot编码方式进行编码。

【专利技术属性】
技术研发人员:程文坛孙伟
申请(专利权)人:上海海事大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1