一种基于行为序列分类的医保异常检测方法及系统技术方案

技术编号:32637676 阅读:24 留言:0更新日期:2022-03-12 18:13
本发明专利技术涉及到一种基于行为序列分类的医保异常检测方法,其特征在于,该方法将参保人的历史行为数据按照时间维度进行汇总合并,使用行为序列分类模型对参保人的行为和特征序列进行分类预测,打上“正常”和“异常”的标签,对待审计数据实现医保异常报销行为信息进行报警推送,提交人工进行审核,审核结果加入到标注样本库供下次模型更新,还涉及到基于行为序列分类的医保异常检测系统。本发明专利技术基于行为序列分类的医保异常检测方法及系统有效规避参保人通过分散报销来隐瞒欺诈行为的情况,提升识别精度并且能够构建起数据闭环,便于数据库持续迭代更新。库持续迭代更新。库持续迭代更新。

【技术实现步骤摘要】
一种基于行为序列分类的医保异常检测方法及系统


[0001]本专利技术涉及大数据处理,特别涉及到一种基于行为序列分类的医保异常检测方法及系统。

技术介绍

[0002]随着我国社会医疗保险行业的不断发展,医保欺诈行为发生频率也越来越高。现实中由于欺诈的行为形式繁杂多样,医保异常报销检测工作面临巨大挑战,也对社会经济的稳定发展产生重大影响。
[0003]在现有技术中,专利号为CN104408547B的中国专利文献中公开了一种基于数据挖掘的医保欺诈行为的检测方法。该专利技术专利主要采用无监督方法对医保参保人员的数据记录进行离群点检测,找到离群点对应的异常记录即为潜在的欺诈行为。在专利号为CN107145587A和专利号为CN102013084A的中国专利技术专利中,分别公开了一种基于大数据挖掘的医保反欺诈系统和一种用于检测医疗部门欺诈性交易的系统和方法,这两个专利都是基于规则库来进行异常检测。
[0004]上述现有技术的解决方案主要的不足之处主要包括以下几方面:(1)现有技术中都是基于规则库来进行医保异常行为检测,前期依赖于人的经验总结和判断,检测系统不具备泛化处理能力;(2)使用无监督方法的检测系统不利于支持系统识别模型的快速更新,每次更新需要审核人员参与进行检测阈值确认和调整;(3)对医保参保人的数据处理方式是独立进行的,即系统检测的对象是参保人的单次行为,缺乏对参保人的行为模式和行为习惯进行分析检测的能力。

技术实现思路

[0005]本专利技术的目的在于克服上述现有技术存在的不足,提供一种基于行为序列分类的医保异常检测方法及系统。本专利技术基于行为序列分类的医保异常检测方法及系统要能够有效规避参保人通过分散报销来隐瞒欺诈行为的情况,提升识别精度并且能够构建起数据闭环,便于数据库持续迭代更新。
[0006]为了达到上述专利技术目的,本专利技术专利提供的技术方案如下:
[0007]本专利技术涉及一种基于行为序列分类的医保异常检测方法,该方法将参保人的历史行为数据按照时间维度进行汇总合并,使用行为序列分类模型对参保人的行为和特征序列进行分类预测,打上“正常”和“异常”的标签,对待审计数据实现医保异常报销行为信息进行报警推送,提交人工进行审核,审核结果加入到标注样本库供下次模型更新。
[0008]在本专利技术基于行为序列分类的医保异常检测方法中,具体包括如下实现步骤:
[0009]步骤1:从数据库同步历史的参保人员、医保报销、诊断结果和机构信息,其中参保人员信息的具体明细包括人员类别代码、年龄、所属行政区域,医保报销信息的具体明细包括报销时间、报销费用、经办机构,诊断结果的具体明细包括就诊方式、就医地点分类、主要疾病诊断编码、药品类型,机构信息的具体明细包括机构类型、所属行政区域、机构等级;
[0010]步骤2:对参保人员和医保报销信息进行关联处理,获取参保人员

报销的行为集合,按照时间降序排序。
[0011]步骤3:对参保人员

报销的行为序列关联诊断结果和机构信息,并且使用统计值构建行为属性信息;
[0012]步骤4:对参保人员行为序列的属性信息进行数值化处理,并且完成标准化;
[0013]步骤5:对历史的医保报销行为序列按照同等长度进行截断,按照固定行为次数保留最新的行为事件,如果不足预设次数,则用空值来进行填充;
[0014]步骤6:结合专家经验使用启发式规则,对医保报销行为序列进行判别,把甄别为异常报销的行为序列打上“异常”的标签,作为正样本加入标注样本库;
[0015]步骤7:使用审核库里的异常用户,获取到相关行为序列,打上“异常”的标签,作为正样本加入标注样本库;
[0016]步骤8:对未打标签的行为序列进行聚类处理,从每个聚类按照聚类占比随机抽取若干行为序列,打上“正常”的标签,作为负样本加入标注样本库,采用负采样的方式来调整正负样本的比例关系;
[0017]步骤9:从标注样本库导出数据,训练行为序列分类模型,该分类模型采用LSTM作为算法模型,该算法模型保留循环神经网络的链式重复神经网络模块结构来捕捉序列信息,同时利用门结构来控制模型中信息的传输量,以学习长期依赖信息;
[0018]步骤10:对接线上系统的新增报销行为,按照参保人和诊断结果信息进行关联,按照同样方式生成行为序列输入;
[0019]步骤11:使用训练好的行为序列分类模型对新增的行为序列进行预测,打上“异常”或“正常”的预测标签;
[0020]步骤12:系统推送打上“异常”标签的行为序列和参保人信息,提交到审计员,由审计员进行人工核实,核实结果加入到标注样本库供下次模型更新。
[0021]在本专利技术基于行为序列分类的医保异常检测方法中,所述步骤3中,行为属性信息的构建过程为:对于某个参保人员,先获取到此人发生的医保报销记录,再通过医保报销记录内的诊断记录和机构标识检索到对应的诊断结果和机构信息。
[0022]在本专利技术基于行为序列分类的医保异常检测方法中,步骤3的行为属性信息构建时,首先构建关联维度的行为属性信息,即把人员信息、报销、诊断结果和机构的明细信息进行汇总;再者构建人工统计特征,包括统计与上次报销的时间间隔、机构是否发生变化、疾病类型是否变更。
[0023]在本专利技术基于行为序列分类的医保异常检测方法中,所述步骤4中,所述数值化处理包含三个方面:费用、次数等属性提取数值部分,进行标准化处理;对编码类型进行独热编码;对于是否发生变更类型的字段增加维度,使用0/1编码表示是/否发生。
[0024]在本专利技术基于行为序列分类的医保异常检测方法中,所述步骤8中采用负采样的方式来调整正负样本的比例关系时,先对整体负样本进行聚类,聚类算法使用层次聚类,完成聚类操作后获得N个簇,统计各个簇的数量分布,按照预设的抽样比例,从每个簇中随机抽取若干个行为序列,作为最终的负样本。
[0025]在本专利技术基于行为序列分类的医保异常检测方法中,所述步骤9中,基于步骤4构建的序列建立LSTM模型,将序列隐藏层最后一步输出接一个全连接层最终输出异常标签的
分值。
[0026]本专利技术还涉及到一种基于行为序列分类的医保异常检测系统,该系统包括有数据采集模块、数据预处理模块、启发式规则判别模块、行为序列样本库、行为序列预测模型训练模块、行为序列在线预测模块以及人工审核平台;
[0027]所述的数据采集模块,从数据库同步历史的参保人员、医保报销、诊断结果和机构信息,对参保人员和医保报销信息进行关联处理,获取参保人员

报销的行为集合,按照时间降序排序,采集的数据输送至所述的数据预处理模块;
[0028]所述的数据预处理模块,对参保人员

报销的行为序列关联诊断结果和机构信息,并且使用统计值构建行为属性信息,对参保人员行为序列的属性信息进行数值化处理,并且完成标准化,完成标准化的数据输送至所述的启发式规则判别模块中;
[0029]所述的启发式规则判别模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于行为序列分类的医保异常检测方法,其特征在于,该方法将参保人的历史行为数据按照时间维度进行汇总合并,使用行为序列分类模型对参保人的行为和特征序列进行分类预测,打上“正常”和“异常”的标签,对待审计数据实现医保异常报销行为信息进行报警推送,提交人工进行审核,审核结果加入到标注样本库供下次模型更新。2.根据权利要求1所述的一种基于行为序列分类的医保异常检测方法,其特征在于,该方法具体包括如下步骤:步骤1:从数据库同步历史的参保人员、医保报销、诊断结果和机构信息,其中参保人员信息的具体明细包括人员类别代码、年龄、所属行政区域,医保报销信息的具体明细包括报销时间、报销费用、经办机构,诊断结果的具体明细包括就诊方式、就医地点分类、主要疾病诊断编码、药品类型,机构信息的具体明细包括机构类型、所属行政区域、机构等级;步骤2:对参保人员和医保报销信息进行关联处理,获取参保人员

报销的行为集合,按照时间降序排序;步骤3:对参保人员

报销的行为序列关联诊断结果和机构信息,并且使用统计值构建行为属性信息;步骤4:对参保人员行为序列的属性信息进行数值化处理,并且完成标准化;步骤5:对历史的医保报销行为序列按照同等长度进行截断,按照固定行为次数保留最新的行为事件,如果不足预设次数,则用空值来进行填充;步骤6:结合专家经验使用启发式规则,对医保报销行为序列进行判别,把甄别为异常报销的行为序列打上“异常”的标签,作为正样本加入标注样本库,启发式规则是通过专家日常经验整理出的多个规则用以识别异常的行为序列;步骤7:使用标注样本库里的异常用户,获取到相关行为序列,打上“异常”的标签,作为正样本加入标注样本库;步骤8:对未打标签的行为序列进行聚类处理,从每个聚类按照聚类占比随机抽取若干行为序列,打上“正常”的标签,作为负样本加入标注样本库,采用负采样的方式来调整正负样本的比例关系;步骤9:从标注样本库导出数据,训练行为序列分类模型,该分类模型采用LSTM作为算法模型,该算法模型利用链式重复神经网络模块结构来捕捉序列信息,同时利用门结构来控制模型中信息的传输量,以学习长期依赖信息;步骤10:对接线上系统的新增报销行为,按照参保人和诊断结果信息进行关联,按照同样方式生成行为序列输入;步骤11:使用训练好的行为序列分类模型对新增的行为序列进行预测,打上“异常”或“正常”的预测标签;步骤12:系统推送打上“异常”标签的行为序列和参保人信息,提交到审计员,由审计员进行人工核实,核实结果加入到标注样本库供下次模型更新。3.根据权利要求2所述的一种基于行为序列分类的医保异常检测方法,其特征在于,所述步骤3中,行为属性信息的构建过程为:对于某个参保人员,先获取到此人发生的医保报销记录,再通过医保报销记录内的诊断记录和机构标识检索到对应的诊断结果和机构信息。4.根据权利要求3所述的一种基于行为序列分类的医保异常检测方法,其特征在于,行
为属性信息构建时,首先构建关联维度的行为属性信息,即把人员信息、报销、诊断结果和机构的明细信息进行汇总;再者构建人工统计特征...

【专利技术属性】
技术研发人员:纪达麒唐文瀚余海东肖茂许瑞玲王俊蔡冲夏凯侯聪白良俊
申请(专利权)人:达而观数据成都有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1