一种报销单风险预测方法、装置、终端设备及存储介质制造方法及图纸

技术编号:18593334 阅读:25 留言:0更新日期:2018-08-04 20:11
本发明专利技术公开了一种报销单风险预测方法、装置、设备及介质。该方法包括:获取历史报销单信息作为样本数据,并按照预设的比例划分为训练样本和测试样本;根据预设的报销单风险等级,确定每个训练样本的风险等级;针对每个风险等级中的训练样本,使用关联规则算法进行模型训练,得到初始预测模型;使用初始预测模型对测试样本进行预测,在从每个风险等级中选择一组模型参数进行组合得到的每种组合方式下,计算每个风险等级的预测成功率,以及每种组合方式下的总预测成功率和测试时间;对模型参数、预测成功率、测试时间和总预测成功率作回归分析,得到目标预测模型,从而辅助工作人员高效地识别报销单的风险级别,提高预测报销单风险等级的准确率。

Method, device, terminal device and storage medium for risk prediction of reimbursement list

The invention discloses a reimbursement risk prediction method, device, equipment and medium. The method includes: obtaining historical reimbursement information as sample data and dividing into training samples and test samples according to the preset proportion; determine the risk level of each training sample according to the default risk level of the reimbursement list, and use association rules algorithm to train model training for each training sample in the risk grade. The initial prediction model is obtained; the initial prediction model is used to predict the test samples. In each combination of the model parameters selected from each risk level, the prediction success rate of each risk level is calculated, and the total prediction success rate and test time in each combination mode are also calculated. The regression analysis of type parameters, prediction success rate, test time and total prediction success rate is made, and the target prediction model is obtained, thus assisting staff to identify the risk level of the reimbursement list efficiently and improve the accuracy rate of the risk rating of the forecast reimbursement list.

【技术实现步骤摘要】
一种报销单风险预测方法、装置、终端设备及存储介质
本专利技术涉及计算机
,尤其涉及一种报销单风险预测方法、装置、终端设备及存储介质。
技术介绍
在日常的费用报销中会存在着一些恶意报销,虚假报销的情况,为了加强风险管理,目前大多使用基于关联规则的挖掘算法建立报销单风险等级预测模型,来进行预测报销单的风险等级。但是当报销单风险等级数据分布不均时,低概率风险等级的报销单在训练数据中所占比例很小,传统的基于关联规则的挖掘算法会把低概率风险等级的报销单数据当做噪声处理而丢弃,导致所建模型无法训练学习得到低概率风险等级报销单数据的特征,使得所建模型用于预测新的报销单的风险等级时,其预测准确率较低。
技术实现思路
本专利技术实施例提供一种报销单风险预测方法,以解决目前报销单风险等级预测模型对报销单的风险等级预测准确率低的问题。第一方面,本专利技术实施例提供一种报销单风险预测方法,包括:获取历史报销单信息,并将所述历史报销单信息作为样本数据;将所述样本数据按照预设的比例划分为训练样本和测试样本;根据预设的N个报销单风险等级的定义,确定每个所述训练样本的报销单风险等级,其中,N为正整数;针对每个所述报销单风险等级中的所述训练样本,使用关联规则算法进行模型训练,得到初始预测模型,其中,所述初始预测模型包括每个所述报销单风险等级中满足预设的模型参数要求的关联规则,所述模型参数包括支持度和置信度;使用所述初始预测模型对所述测试样本进行模型预测,在从每个所述报销单风险等级中选择一组所述模型参数进行组合得到的每种组合方式下,计算每个所述报销单风险等级的预测成功率,以及每种所述组合方式下的总预测成功率和测试时间;对所述模型参数、所述预测成功率、所述测试时间和所述总预测成功率进行回归分析,得到目标预测模型。第二方面,本专利技术实施例提供一种报销单风险预测装置,包括:样本数据采集模块,用于获取历史报销单信息,并将所述历史报销单信息作为样本数据;第一划分模块,用于将所述样本数据按照预设的比例划分为训练样本和测试样本;风险等级预设模块,用于根据预设的N个报销单风险等级的定义,确定每个所述训练样本的报销单风险等级,其中,N为正整数;初始预测模型获取模块,用于针对每个所述报销单风险等级中的所述训练样本,使用关联规则算法进行模型训练,得到初始预测模型,其中,所述初始预测模型包括每个所述报销单风险等级中满足预设的模型参数要求的关联规则,所述模型参数包括支持度和置信度;初始预测模型测试模块,用于使用所述初始预测模型对所述测试样本进行模型预测,在从每个所述报销单风险等级中选择一组所述模型参数进行组合得到的每种组合方式下,计算每个所述报销单风险等级的预测成功率,以及每种所述组合方式下的总预测成功率和测试时间;目标预测模型获取模块,用于对所述模型参数、所述预测成功率、所述测试时间和所述总预测成功率进行回归分析,得到目标预测模型。第三方面,本专利技术实施例提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述报销单风险预测方法的步骤。第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述报销单风险预测方法的步骤。本专利技术实施例提供的一种报销单风险预测方法、装置、终端设备及存储介质中,通过获取历史报销单信息作为样本数据,并将样本数据按照预设的比例划分为训练样本和测试样本,能够通过测试样本来评价训练样本训练得到的模型的质量;在对报销单风险等级进行定义,确定每个训练样本的报销单风险等级后,针对每个报销单风险等级中的训练样本,使用关联规则算法进行模型训练,获取各报销单风险等级中满足预设的模型参数要求的目标关联规则,构建初始预测模型,这种按照不同报销单风险等级进行模型训练的方式能够学习到样本数据中所占比例较小的报销单数据的特征,避免这部分报销单数据被当做噪声处理而丢弃的情况,从而提高模型的精确度;最后再使用初始预测模型对测试样本进行模型预测,在从每个报销单风险等级中选择一组模型参数进行组合得到的每种组合方式下,计算每种组合方式下的每个报销单风险等级的预测成功率、总预测成功率和测试时间,并对这些离散型数据作回归分析,得到目标预测模型,通过模型预测和回归分析得到精准的模型配置参数,使得目标预测模型能够辅助工作人员精准高效地识别报销单的风险级别,有效提高预测报销单风险等级的准确率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例1中提供的报销单风险预测方法的流程图;图2是本专利技术实施例1中提供的报销单风险预测方法中步骤S4的实现流程图;图3是本专利技术实施例1中提供的报销单风险预测方法中步骤S5的实现流程图;图4是本专利技术实施例1中提供的报销单风险预测方法中步骤S6的实现流程图;图5是本专利技术实施例1中提供的报销单风险预测方法中使用交叉验证方法测试目标预测模型精确度的实现流程图;图6是本专利技术实施例2提供的报销单风险预测装置的示意图;图7是本专利技术实施例4提供的终端设备的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1请参阅图1,图1示出了本专利技术实施例提供的报销单风险预测方法的实现流程。该报销单风险预测方法应用在各个企事业单位的报销单审核系统中,用于识别报销单的风险级别,提高预测报销单风险等级的准确率。如图1所示,该报销单风险预测方法包括步骤S1至步骤S6,详述如下:S1:获取历史报销单信息,并将历史报销单信息作为样本数据。在本专利技术实施例中,样本数据是从报销单数据库的历史报销单中采集,获取历史报销单信息。历史报销单是企事业单位在生产经营过程中存储在报销单数据库中的数据。每个历史报销单信息包括从报销单上获得的信息和在处理报销单过程中所产生的信息,具体地,历史报销单信息包括但不限于报销单编号、报销单名称、经办人中文姓名、报销人中文姓名、部门名称、报销金额、合计金额、附单据张数等多种属性信息,以历史报销单信息作为样本数据进行挖掘学习。具体地,在对报销单的样本数据进行采集、存储和处理加工时,使用Hadoop大数据平台实现从报销单数据库中存储的历史报销单中采集样本数据。Hadoop是一种分布式系统基础架构,实现了一个分布式文件系统(HadoopDistributedFileSystem,HDFS),HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。在对样本数据的采集过程中,通过采用分布式文件系统HDFS和数据仓库工具hive进行数据处理,其中,hive是基于Hadoop的一个数据仓库工具,用于存储、查询和分析存储在Hadoop中的大规模数据,使得采用Hadoop大数据平台进行样本数据的采集具本文档来自技高网...

【技术保护点】
1.一种报销单风险预测方法,其特征在于,所述报销单风险预测方法包括:获取历史报销单信息,并将所述历史报销单信息作为样本数据;将所述样本数据按照预设的比例划分为训练样本和测试样本;根据预设的N个报销单风险等级的定义,确定每个所述训练样本的报销单风险等级,其中,N为正整数;针对每个所述报销单风险等级中的所述训练样本,使用关联规则算法进行模型训练,得到初始预测模型,其中,所述初始预测模型包括每个所述报销单风险等级中满足预设的模型参数要求的关联规则,所述模型参数包括支持度和置信度;使用所述初始预测模型对所述测试样本进行模型预测,在从每个所述报销单风险等级中选择一组所述模型参数进行组合得到的每种组合方式下,计算每个所述报销单风险等级的预测成功率,以及每种所述组合方式下的总预测成功率和测试时间;对所述模型参数、所述预测成功率、所述测试时间和所述总预测成功率进行回归分析,得到目标预测模型。

【技术特征摘要】
1.一种报销单风险预测方法,其特征在于,所述报销单风险预测方法包括:获取历史报销单信息,并将所述历史报销单信息作为样本数据;将所述样本数据按照预设的比例划分为训练样本和测试样本;根据预设的N个报销单风险等级的定义,确定每个所述训练样本的报销单风险等级,其中,N为正整数;针对每个所述报销单风险等级中的所述训练样本,使用关联规则算法进行模型训练,得到初始预测模型,其中,所述初始预测模型包括每个所述报销单风险等级中满足预设的模型参数要求的关联规则,所述模型参数包括支持度和置信度;使用所述初始预测模型对所述测试样本进行模型预测,在从每个所述报销单风险等级中选择一组所述模型参数进行组合得到的每种组合方式下,计算每个所述报销单风险等级的预测成功率,以及每种所述组合方式下的总预测成功率和测试时间;对所述模型参数、所述预测成功率、所述测试时间和所述总预测成功率进行回归分析,得到目标预测模型。2.如权利要求1所述的报销单风险预测方法,其特征在于,所述针对每个所述报销单风险等级中的所述训练样本,使用关联规则算法进行模型训练,得到初始预测模型包括:对每个所述报销单风险等级中的所述训练样本进行数据预处理,得到每个所述报销单风险等级中的待处理数据集;对所述待处理数据集使用关联规则算法进行数据挖掘,得到每个所述报销单风险等级中的多个项集;针对每个所述报销单风险等级,从该报销单风险等级中的所述项集中筛选出满足所述模型参数要求的目标项集,并根据该目标项集建立关联规则;根据所述关联规则和所述关联规则对应的所述模型参数要求,构建所述初始预测模型。3.如权利要求1或2所述的报销单风险预测方法,其特征在于,所述使用所述初始预测模型对所述测试样本进行模型预测,在从每个所述报销单风险等级中选择一组所述模型参数进行组合得到的每种组合方式下,计算每个所述报销单风险等级的预测成功率,以及该组合方式下的总预测成功率和测试时间包括:根据所述预设的N个报销单风险等级的定义,确定每个所述测试样本的报销单风险等级,以及每个所述报销单风险等级的测试样本数;按照如下公式计算所述测试样本中每个报销单风险等级的概率:其中,i∈[1,N],Pi为所述测试样本中第i个报销单风险等级的概率,Ri为第i个所述报销单风险等级的测试样本数,S为所述测试样本的总数;从每个所述报销单风险等级中选择一组所述模型参数进行组合,得到L种组合方式,其中,L为正整数;针对每种所述组合方式,按照所述概率由高到低的顺序,使用所述初始预测模型对所述测试样本进行报销单风险等级预测,得到每个所述测试样本的预测结果,并获取在该组合方式下的进行报销单风险等级预测的测试时间;将每个所述测试样本的所述预测结果与该测试样本的报销单风险等级进行对比,若两者相同则确认该测试样本预测成功,并统计在每种所述组合方式下每个所述报销单风险等级下的测试样本预测成功的个数;按照如下公式计算每种所述组合方式下每个所述报销单风险等级的预测成功率:其中,hitratei为第i个所述报销单风险等级的预测成功率,Mi为第i个所述报销单风险等级下的测试样本预测成功的个数;按照如下公式计算每种所述组合方式下的总预测成功率:其中,hitRate为所述总预测成功率。4.如权利要求3所述的报销单风险预测方法,其特征在于,所述对所述模型参数、所述预测成功率、所述测试时间和所述总预测成功率进行回归分析,得到目标预测模型包括:将每个所述报销单风险等级中的所述模型参数,以及所述预测成功率和所述测试时间作为设计变量,将所述总预测成功率作为目标变量,使用所述设计变量和所述目标变量进行函数拟合,得到拟合函数;对所述拟合函数进行求...

【专利技术属性】
技术研发人员:袁军陆源魏尧东
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1