【技术实现步骤摘要】
一种车险理赔欺诈风险识别方法及装置
[0001]本申请涉及人工智能
,特别是涉及一种车险理赔欺诈风险识别方 法及装置。
技术介绍
[0002]纵观保险业历史发展,保险欺诈一直是影响保险业健康发展的“毒瘤”, 直接侵害了保险消费者的合法权益和保险公司利益,间接推高了保险产品和服 务的价格、扰乱了保险市场秩序。保险欺诈已成为世界各国保险业不得不面对 的共同难题,风控机制相对完善的国外保险行业仍然无法从根源杜绝欺诈行为; 而国内的反保险欺诈起步较晚,经验积累较少;再加之保险欺诈实施犯罪成本 低等情况,导致欺诈形势不断恶化,并且呈现出上升趋势。欺诈风险规则是保 险理赔以反欺诈经验为基础将欺诈场景因子进行组合,形成对应规则,对理赔 事中反欺诈起到一定的辅助作用。但随着保险欺诈更专业化、职业化、团伙化、 复杂化,简单的欺诈风险规则已无法满足及时有效的预防保险欺诈的发生。
[0003]目前,保险公司的应对策略仍是更多地依赖理赔人员的自主发现来识别风 险,存在人力耗费大、成本高、专业技能有限等问题,难以有效识别专业欺诈。 现有技术中,也有通过风险识别模型预测风险,但是保险公司的数据量庞大, 样本数据难以有效分类和筛选,样本数据标准不统一,特征因子选取数量和方 式单一,算法使用不当,整体预测效果不佳。
技术实现思路
[0004]基于此,有必要针对上述技术问题,提供一种车险理赔欺诈风险识别方法 及装置,提高风险识别模型的预测效果。
[0005]为实现上述目的,本专利技术提供一种车险理赔欺诈风险识别方 ...
【技术保护点】
【技术特征摘要】
1.一种车险理赔欺诈风险识别方法,所述方法包括:数据处理,包括数据选取和数据预处理,所述数据选取包括获取车险理赔已结案件信息,然后选取整案欺诈和部分欺诈案件为正样本,正常案件为负样本;所述数据预处理建立特征工程,具体包括空值率处理,噪音数据处理,缺失值处理和离散化处理;在线特征因子分析,根据特征在正负样本的分布情况从而获得对欺诈具有区分度的在线特征因子,具体包括选取多个单一特征因子,然后根据多个单一特征因子组合构建多个衍生特征并进行筛选,最后识别并删除穿越特征因子;所述多个衍生特征包括延迟报案、批量损失险、相同车辆多次出险等;所述延迟报案包括报案时间与出险时间差,具体包括出险时间、报案时间、事故号等;所述批量损失险包括批增损失险小于N天,具体包括批增时间、损失险别、出险时间、事故号;所述相同车辆多次出险包括相同标的与三者车出险次数大于N次,具体包括标的车牌号、三者车牌号、事故号;离线特征因子分析,选取在线特征因子后,根据历史数据构建以被保险人纬度的离线特征库,通过统计方式加工离线特征库,选取离线特征因子;建立风险识别模型,根据所述在线特征因子和所述离线特征因子建立总特征库进行模型训练;所述模型训练采用XGBoost算法;具体定义包含n件车险理赔案件和m个特征因子属性的数据集D={(x
i
,y
i
)}(|D|=n,x
i
∈R
m
,y
i
∈{0,1}),其中x
i
表示第i个理赔案件的特征向量,R
m
代表m维实数集,y
i
代表该案件是否涉嫌欺诈,0为正常案件,1为欺诈案件,将多棵回归树所得的结果进行相加即可得到最终预测结果,如式(1.1)所示:其中,k为树的总个数,f
k
表示第k颗树,f
k
(x
i
)表示样本x
i
输入到第k棵树后得到的叶子节点的预测分数,表示样本x
i
的预测结果,F={f(x)=ωq(x)}(q:R
m
→
T,ω∈RT)表示回归树空间,q代表单颗树的结构,T代表叶子节点的数量,ω代表每个叶子节点的权重,每一棵树都是独立存在的,对于一件理赔案件通过k棵树,将其映射到对应的叶子节点后,相加所有映射叶子节点的分数即可得到该样本的最终分数结果;所述风险识别模型的目标函数Obj(Θ)如式(1.2)所示:式(1.2)分为两部分,第一部分误差函数代表预测值与真实值的yi之间的训练误差,第二部分代表模型复杂度的惩罚项,Ω(f
k
)表示第k颗树f
k
的复杂度,Ω表示计算复杂度的公式符号;车险理赔欺诈风险预警,核心理赔系统和所述风险识别模型对接,实时提示案件风险指数。2.根据权利要求1所述的方法,其特征在于,所述空值率处理包括:删除空值率为100%的特征因子。3.根据权利要求1所述的方法,其特征在于,所述离散化处理包括:采用等距分箱...
【专利技术属性】
技术研发人员:陈平,焦抚京,颜子昂,
申请(专利权)人:中国人寿财产保险股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。