The invention discloses a reimbursement risk prediction method, device, equipment and medium. The method includes: obtaining historical reimbursement information as sample data and dividing into training samples and test samples according to the preset proportion; determine the risk level of each training sample according to the default risk level of the reimbursement list, and use association rules algorithm to train model training for each training sample in the risk grade. The initial prediction model is obtained; the initial prediction model is used to predict the test samples. In each combination of the model parameters selected from each risk level, the prediction success rate of each risk level is calculated, and the total prediction success rate and test time in each combination mode are also calculated. The regression analysis of type parameters, prediction success rate, test time and total prediction success rate is made, and the target prediction model is obtained, thus assisting staff to identify the risk level of the reimbursement list efficiently and improve the accuracy rate of the risk rating of the forecast reimbursement list.
【技术实现步骤摘要】
一种报销单风险预测方法、装置、终端设备及存储介质
本专利技术涉及计算机
,尤其涉及一种报销单风险预测方法、装置、终端设备及存储介质。
技术介绍
在日常的费用报销中会存在着一些恶意报销,虚假报销的情况,为了加强风险管理,目前大多使用基于关联规则的挖掘算法建立报销单风险等级预测模型,来进行预测报销单的风险等级。但是当报销单风险等级数据分布不均时,低概率风险等级的报销单在训练数据中所占比例很小,传统的基于关联规则的挖掘算法会把低概率风险等级的报销单数据当做噪声处理而丢弃,导致所建模型无法训练学习得到低概率风险等级报销单数据的特征,使得所建模型用于预测新的报销单的风险等级时,其预测准确率较低。
技术实现思路
本专利技术实施例提供一种报销单风险预测方法,以解决目前报销单风险等级预测模型对报销单的风险等级预测准确率低的问题。第一方面,本专利技术实施例提供一种报销单风险预测方法,包括:获取历史报销单信息,并将所述历史报销单信息作为样本数据;将所述样本数据按照预设的比例划分为训练样本和测试样本;根据预设的N个报销单风险等级的定义,确定每个所述训练样本的报销单风险等级,其中,N为正整数;针对每个所述报销单风险等级中的所述训练样本,使用关联规则算法进行模型训练,得到初始预测模型,其中,所述初始预测模型包括每个所述报销单风险等级中满足预设的模型参数要求的关联规则,所述模型参数包括支持度和置信度;使用所述初始预测模型对所述测试样本进行模型预测,在从每个所述报销单风险等级中选择一组所述模型参数进行组合得到的每种组合方式下,计算每个所述报销单风险等级的预测成功率,以及每种所述组合方 ...
【技术保护点】
1.一种报销单风险预测方法,其特征在于,所述报销单风险预测方法包括:获取历史报销单信息,并将所述历史报销单信息作为样本数据;将所述样本数据按照预设的比例划分为训练样本和测试样本;根据预设的N个报销单风险等级的定义,确定每个所述训练样本的报销单风险等级,其中,N为正整数;针对每个所述报销单风险等级中的所述训练样本,使用关联规则算法进行模型训练,得到初始预测模型,其中,所述初始预测模型包括每个所述报销单风险等级中满足预设的模型参数要求的关联规则,所述模型参数包括支持度和置信度;使用所述初始预测模型对所述测试样本进行模型预测,在从每个所述报销单风险等级中选择一组所述模型参数进行组合得到的每种组合方式下,计算每个所述报销单风险等级的预测成功率,以及每种所述组合方式下的总预测成功率和测试时间;对所述模型参数、所述预测成功率、所述测试时间和所述总预测成功率进行回归分析,得到目标预测模型。
【技术特征摘要】
1.一种报销单风险预测方法,其特征在于,所述报销单风险预测方法包括:获取历史报销单信息,并将所述历史报销单信息作为样本数据;将所述样本数据按照预设的比例划分为训练样本和测试样本;根据预设的N个报销单风险等级的定义,确定每个所述训练样本的报销单风险等级,其中,N为正整数;针对每个所述报销单风险等级中的所述训练样本,使用关联规则算法进行模型训练,得到初始预测模型,其中,所述初始预测模型包括每个所述报销单风险等级中满足预设的模型参数要求的关联规则,所述模型参数包括支持度和置信度;使用所述初始预测模型对所述测试样本进行模型预测,在从每个所述报销单风险等级中选择一组所述模型参数进行组合得到的每种组合方式下,计算每个所述报销单风险等级的预测成功率,以及每种所述组合方式下的总预测成功率和测试时间;对所述模型参数、所述预测成功率、所述测试时间和所述总预测成功率进行回归分析,得到目标预测模型。2.如权利要求1所述的报销单风险预测方法,其特征在于,所述针对每个所述报销单风险等级中的所述训练样本,使用关联规则算法进行模型训练,得到初始预测模型包括:对每个所述报销单风险等级中的所述训练样本进行数据预处理,得到每个所述报销单风险等级中的待处理数据集;对所述待处理数据集使用关联规则算法进行数据挖掘,得到每个所述报销单风险等级中的多个项集;针对每个所述报销单风险等级,从该报销单风险等级中的所述项集中筛选出满足所述模型参数要求的目标项集,并根据该目标项集建立关联规则;根据所述关联规则和所述关联规则对应的所述模型参数要求,构建所述初始预测模型。3.如权利要求1或2所述的报销单风险预测方法,其特征在于,所述使用所述初始预测模型对所述测试样本进行模型预测,在从每个所述报销单风险等级中选择一组所述模型参数进行组合得到的每种组合方式下,计算每个所述报销单风险等级的预测成功率,以及该组合方式下的总预测成功率和测试时间包括:根据所述预设的N个报销单风险等级的定义,确定每个所述测试样本的报销单风险等级,以及每个所述报销单风险等级的测试样本数;按照如下公式计算所述测试样本中每个报销单风险等级的概率:其中,i∈[1,N],Pi为所述测试样本中第i个报销单风险等级的概率,Ri为第i个所述报销单风险等级的测试样本数,S为所述测试样本的总数;从每个所述报销单风险等级中选择一组所述模型参数进行组合,得到L种组合方式,其中,L为正整数;针对每种所述组合方式,按照所述概率由高到低的顺序,使用所述初始预测模型对所述测试样本进行报销单风险等级预测,得到每个所述测试样本的预测结果,并获取在该组合方式下的进行报销单风险等级预测的测试时间;将每个所述测试样本的所述预测结果与该测试样本的报销单风险等级进行对比,若两者相同则确认该测试样本预测成功,并统计在每种所述组合方式下每个所述报销单风险等级下的测试样本预测成功的个数;按照如下公式计算每种所述组合方式下每个所述报销单风险等级的预测成功率:其中,hitratei为第i个所述报销单风险等级的预测成功率,Mi为第i个所述报销单风险等级下的测试样本预测成功的个数;按照如下公式计算每种所述组合方式下的总预测成功率:其中,hitRate为所述总预测成功率。4.如权利要求3所述的报销单风险预测方法,其特征在于,所述对所述模型参数、所述预测成功率、所述测试时间和所述总预测成功率进行回归分析,得到目标预测模型包括:将每个所述报销单风险等级中的所述模型参数,以及所述预测成功率和所述测试时间作为设计变量,将所述总预测成功率作为目标变量,使用所述设计变量和所述目标变量进行函数拟合,得到拟合函数;对所述拟合函数进行求...
【专利技术属性】
技术研发人员:袁军,陆源,魏尧东,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。