一种车险理赔欺诈风险识别方法及装置制造方法及图纸

技术编号:32658038 阅读:62 留言:0更新日期:2022-03-17 11:06
本申请涉及一种车险理赔欺诈风险识别方法、装置、计算机设备和存储介质。所述方法包括:数据处理,包括数据选取和数据预处理,在线特征因子分析;离线特征因子分析;根据在线特征因子和离线特征因子建立总特征库进行模型训练,建立风险识别模型;核心理赔系统和所述风险识别模型对接,车险理赔欺诈风险预警,实时提示案件风险指数。本发明专利技术旨在提高欺诈风险识别精确和识别时效,有效帮助保险公司刷选欺诈理赔案件。诈理赔案件。诈理赔案件。

【技术实现步骤摘要】
一种车险理赔欺诈风险识别方法及装置


[0001]本申请涉及人工智能
,特别是涉及一种车险理赔欺诈风险识别方 法及装置。

技术介绍

[0002]纵观保险业历史发展,保险欺诈一直是影响保险业健康发展的“毒瘤”, 直接侵害了保险消费者的合法权益和保险公司利益,间接推高了保险产品和服 务的价格、扰乱了保险市场秩序。保险欺诈已成为世界各国保险业不得不面对 的共同难题,风控机制相对完善的国外保险行业仍然无法从根源杜绝欺诈行为; 而国内的反保险欺诈起步较晚,经验积累较少;再加之保险欺诈实施犯罪成本 低等情况,导致欺诈形势不断恶化,并且呈现出上升趋势。欺诈风险规则是保 险理赔以反欺诈经验为基础将欺诈场景因子进行组合,形成对应规则,对理赔 事中反欺诈起到一定的辅助作用。但随着保险欺诈更专业化、职业化、团伙化、 复杂化,简单的欺诈风险规则已无法满足及时有效的预防保险欺诈的发生。
[0003]目前,保险公司的应对策略仍是更多地依赖理赔人员的自主发现来识别风 险,存在人力耗费大、成本高、专业技能有限等问题,难以有效识别专业欺诈。 现有技术中,也有通过风险识别模型预测风险,但是保险公司的数据量庞大, 样本数据难以有效分类和筛选,样本数据标准不统一,特征因子选取数量和方 式单一,算法使用不当,整体预测效果不佳。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种车险理赔欺诈风险识别方法 及装置,提高风险识别模型的预测效果。
[0005]为实现上述目的,本专利技术提供一种车险理赔欺诈风险识别方法,所述方法 包括:
[0006]数据处理,包括数据选取和数据预处理,所述数据选取包括获取车险理赔 已结案件信息,然后选取整案欺诈和部分欺诈案件为正样本,正常案件为负样 本;所述数据预处理建立特征工程,具体包括空值率处理,噪音数据处理,缺 失值处理和离散化处理;
[0007]在线特征因子分析,根据特征在正负样本的分布情况从而获得对欺诈具有 区分度的在线特征因子,具体包括选取多个单一特征因子,根据多个单一特征 因子组合构建衍生特征并进行筛选,识别并删除穿越特征因子;所述多个衍生 特征包括延迟报案、批增损失险、相同车辆多次出险等;所述延迟报案包括报 案时间与出险时间差,具体包括出险时间、报案时间、事故号;所述批增损失 险包括批增损失险小于N天,具体包括批增时间、损失险别、出险时间、事故 号;所述相同车辆多次出险包括相同标的与三者车出险次数大于N次,具体包 括标的车牌号、三者车牌号、事故号;
[0008]离线特征因子分析,计算历史数据并构建以被保险人纬度的离线特征库, 通过统计方式加工离线特征库,提取离线特征因子;
[0009]建立风险识别模型,根据所述在线特征因子和所述离线特征因子建立总特 征库
进行模型训练;所述模型训练采用XGBoost算法;具体定义包含n件车险 理赔案件和m个特征因子属性的数据集D={(x
i
,y
i
)}(|D|=n,x
i
∈R
m
,y
i
∈{0,1}), 其中x
i
表示第i个理赔案件的特征向量,R
m
代表m维实数集,y
i
代表该案件是 否涉嫌欺诈,0为正常案件,1为欺诈案件,将多棵回归树所得的结果进行相加 即可得到最终预测结果,如式(1.1)所示:
[0010][0011]其中,k为树的总个数,f
k
表示第k颗树,f
k
(x
i
)表示样本x
i
输入到第k棵树 后得到的叶子节点的预测分数,表示样本x
i
的预测结果, F={f(x)=ωq(x)}(q:R
m

T,ω∈RT)表示回归树空间,q代表单颗树的结构,T代表 叶子节点的数量,ω代表每个叶子节点的权重,每一棵树都是独立存在的,对 于一件理赔案件通过k棵树,将其映射到对应的叶子节点后,相加所有映射叶 子节点的分数即可得到该样本的最终分数结果;
[0012]所述风险识别模型的目标函数Obj(Θ)如式(1.2)所示:
[0013][0014]式(1.2)分为两部分,第一部分误差函数代表预测值与真实值 的yi之间的训练误差,第二部分代表模型复杂度的惩罚项,Ω(f
k
)表示第k颗树 f
k
的复杂度,Ω表示计算复杂度的公式符号;
[0015]车险理赔欺诈风险预警,核心理赔系统和所述风险识别模型对接,实时提 示案件风险指数。
[0016]优选的,所述空值率处理包括:删除空值率为100%的因子。
[0017]优选的,所述离散化处理包括:采用等距分箱算法。
[0018]优选的,所述缺失值处理包括:通过均值和/或中位数和/或众数填充缺失值。
[0019]优选的,运用迭代的方式对所述风险识别模型求解,每经过一轮迭代增加 一个函数到模型中,如式(1.3)所示:
[0020][0021][0022][0023]…
[0024][0025]其中为第t次迭代时的预测分数,为加快目标函数迭代速度,对目标函 数进行优化,公式如(1.4)所示:
[0026][0027]利用泰勒公式对目标函数进行二次展开,加快迭代速率,最终可得第t次迭 代简化目标函数公式如(1.5)所示:
[0028][0029]g
i
为损失函数的一阶导数;h
i
为损失函数的二阶导数,采用树形结构的方式 对函数进行优化,F={f(x)=ωq(x)}(q:R
m

T,ω∈RT),复杂度惩罚项如式(1.6)所 示:
[0030][0031]λ为L2正则化项系数,γ为控制树的复杂度的正则化项系数,定义每个叶 子节点j中包含的样本集合为:I
j
={i|q(x
i
)=j},得到公式(1.7)所示:
[0032][0035]目标函数如式(1.8)所示:
[0036][0037]由式(1.8)等于0得到叶子最优权重以及最优函数如下:
[0038][0039][0040]公式(1.9)可以作为一个评价数结构好坏的标准,利用贪婪算法,从深度为0的树 开始进行迭代分裂,通过信息增益Gain的方式,选择信息增益最大的特征及其 最佳分裂点进行分割,直至信息增益<=0或者迭代到预先设定的阈值时停止分 裂,得到最终的分类树结构,信息增益计算如式(1.10)所示:
[0041][0042]其中,G
L
和G
R
分别为由当前节点分裂出的左子节点和右子节点样本集的一 阶梯度统计和,H
L
和H
R
分别为左子节点和右子节点样本集的二阶梯度统计和。
[0043]此外,为实现上述目的,本专利技术还提供一种车险理赔欺诈风险识别装置,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种车险理赔欺诈风险识别方法,所述方法包括:数据处理,包括数据选取和数据预处理,所述数据选取包括获取车险理赔已结案件信息,然后选取整案欺诈和部分欺诈案件为正样本,正常案件为负样本;所述数据预处理建立特征工程,具体包括空值率处理,噪音数据处理,缺失值处理和离散化处理;在线特征因子分析,根据特征在正负样本的分布情况从而获得对欺诈具有区分度的在线特征因子,具体包括选取多个单一特征因子,然后根据多个单一特征因子组合构建多个衍生特征并进行筛选,最后识别并删除穿越特征因子;所述多个衍生特征包括延迟报案、批量损失险、相同车辆多次出险等;所述延迟报案包括报案时间与出险时间差,具体包括出险时间、报案时间、事故号等;所述批量损失险包括批增损失险小于N天,具体包括批增时间、损失险别、出险时间、事故号;所述相同车辆多次出险包括相同标的与三者车出险次数大于N次,具体包括标的车牌号、三者车牌号、事故号;离线特征因子分析,选取在线特征因子后,根据历史数据构建以被保险人纬度的离线特征库,通过统计方式加工离线特征库,选取离线特征因子;建立风险识别模型,根据所述在线特征因子和所述离线特征因子建立总特征库进行模型训练;所述模型训练采用XGBoost算法;具体定义包含n件车险理赔案件和m个特征因子属性的数据集D={(x
i
,y
i
)}(|D|=n,x
i
∈R
m
,y
i
∈{0,1}),其中x
i
表示第i个理赔案件的特征向量,R
m
代表m维实数集,y
i
代表该案件是否涉嫌欺诈,0为正常案件,1为欺诈案件,将多棵回归树所得的结果进行相加即可得到最终预测结果,如式(1.1)所示:其中,k为树的总个数,f
k
表示第k颗树,f
k
(x
i
)表示样本x
i
输入到第k棵树后得到的叶子节点的预测分数,表示样本x
i
的预测结果,F={f(x)=ωq(x)}(q:R
m

T,ω∈RT)表示回归树空间,q代表单颗树的结构,T代表叶子节点的数量,ω代表每个叶子节点的权重,每一棵树都是独立存在的,对于一件理赔案件通过k棵树,将其映射到对应的叶子节点后,相加所有映射叶子节点的分数即可得到该样本的最终分数结果;所述风险识别模型的目标函数Obj(Θ)如式(1.2)所示:式(1.2)分为两部分,第一部分误差函数代表预测值与真实值的yi之间的训练误差,第二部分代表模型复杂度的惩罚项,Ω(f
k
)表示第k颗树f
k
的复杂度,Ω表示计算复杂度的公式符号;车险理赔欺诈风险预警,核心理赔系统和所述风险识别模型对接,实时提示案件风险指数。2.根据权利要求1所述的方法,其特征在于,所述空值率处理包括:删除空值率为100%的特征因子。3.根据权利要求1所述的方法,其特征在于,所述离散化处理包括:采用等距分箱...

【专利技术属性】
技术研发人员:陈平焦抚京颜子昂
申请(专利权)人:中国人寿财产保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1