【技术实现步骤摘要】
基于改进生成对抗网络的存在骗保行为的患者识别方法
[0001]本专利技术涉及数据挖掘
,具体涉及一种基于改进生成对抗网络的存在骗保行为的患者识别方法。
技术介绍
[0002]医疗保险是我国社会保险的重要组成部分,医保资金有着保障民生的重要作用,国家对其财政补助金额也日益增长。对于医保基金的欺诈盗用会对基金的正常运行造成影响,是一种十分恶劣的行为,造成的社会影响非常不好。在我国医保覆盖范围广,医保基金监管难度大的情况下,医院患者欺诈骗取医保基金的违规行为频发。由于骗保存在主体多,环节多,行为隐秘性强,骗保方式层出不穷的特点,因此打击治理欺诈骗保形势依然严峻。传统的基金监管方式多以依靠监管人员已有经验与规则进行人工监管,但这类规则一般较为简单,只对已知的欺诈策略起作用,无法自动发现新的欺诈策略;难于维护和更新,当新政策出台时,必须手动更新规则库,新的欺诈策略很容易绕过内部定义的规则。CN107145587A设计了一种基于大数据挖掘的医保反欺诈系统,但其系统涉及的内部结构及调度算法复杂,且搭建成本较高。CN111028088设计了一种基于频繁集挖掘的团伙骗保行为识别,但由于识别目标不明确,并且未将医院结算信息用于骗保识别,在面对新的骗保行为出现时缺乏灵活性。
技术实现思路
[0003]因此,本专利技术要解决的技术问题在于克服现有技术中的上述缺陷,从而提供一种基于改进生成对抗网络的存在骗保行为的患者识别方法。
[0004]为此,所述基于改进生成对抗网络的存在骗保行为的患者识别方法,具体包括如下步 ...
【技术保护点】
【技术特征摘要】
1.一种基于改进生成对抗网络的存在骗保行为的患者识别方法,其特征在于,具体包括如下步骤:S1:获取普通住院与普通门诊类型的发生骗保行为医院的年度医保报销数据,数据属性包括患者就诊行为信息字段、医保目录内患者费用组成字段、患者医疗费用组成字段;S2:对该医院所有患者普通住院和普通门诊的报销数据进行预处理;S3:构建患者训练数据集D1和测试数据集D2;S4:利用训练数据集D1训练改进生成对抗网络模型;S5:利用训练后的改进生成对抗网络模型,输入测试数据集D2,得到异常分值集合,据此挑选异常阈值;S6:利用异常阈值构建分类识别模型;S7:定期更新医院新的报销数据,更新训练集与测试集中的样本,重复S4至S6,分别对应更新改进生成对抗网络模型的参数和分类识别模型的参数。2.根据权利要求1所述的一种基于改进生成对抗网络的存在骗保行为的患者识别方法,其特征在于,步骤S1中,所述患者就诊行为信息字段包括就诊时间、住院天数,所述医保目录内患者费用组成字段包括甲类药品费用、乙类药品费用,所述患者医疗费用组成字段包括西药费、材料费。3.根据权利要求1所述的一种基于改进生成对抗网络的存在骗保行为的患者识别方法,其特征在于,步骤S2具体包括如下步骤:S21:删除普通门诊和普通住院报销数据单笔报销费用中显著异常费用;S22:删除重复记录;S23:0值填充各类费用字段为空的记录;S24:从0到总类别数对类别型数据进行字典编码,将其转变为数值型数据;S25:数值归一化数值型数据,其具体计算公式为:,a表示数据缩放区间上限,b表示数据缩放区间的下限。4.根据权利要求1所述的一种基于改进生成对抗网络的存在骗保行为的患者识别方法,其特征在于,步骤S3具体包括如下步骤:S31:依据就诊时间将单个患者的多条报销记录组成患者特征矩阵X
w
×
h
,w为报销数据字段个数,h为患者年度报销记录最大维度,对于年度报销记录维度少于h样本进行0值填充;S32:构建仅含正常患者特征矩阵训练集以及同时包含正常患者和具有骗保行为患者的特征矩阵测试集,其中X
i
为患者特征矩阵,为样本标签,其中1表示具有骗保行为的样本,0表示正常样本。5.根据权利要求1所述的一种基于改进生成对抗网络的存在骗保行为的患者识别方法,其特征在于,步骤S4具体包括如下步骤:S41:利用改进生成对抗网络模型的生成器网络G,生成器网络G设置编码器网络G
E
和解码器网络G
D
两个子网络,通过输入正常患者费用特征矩阵x,得到向量z=G
E
(x)以及患者特征
矩阵;S42:利用改进生成对抗网络模型的编码器网络E,通过输入患者特征矩阵,得到特征表示;S43:利用改进生成对抗网络模型的判别器网络D,通过输入患者特征矩阵,得到判别函数;S44:构建损失函数,其中,,其中,,其中,w
adv
为判别器损失函数权重,w
con
为编码器损失函数权重,w
enc
为解码器损失函数权重,E(*)为分布函数的期望值,x~P(x)...
【专利技术属性】
技术研发人员:陈妍,金赞,周文慧,梁伟,李明杰,罗雪琴,
申请(专利权)人:湖南工商大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。