基于改进生成对抗网络的存在骗保行为的患者识别方法技术

技术编号:30767228 阅读:16 留言:0更新日期:2021-11-10 12:29
本发明专利技术公开了基于改进生成对抗网络的存在骗保行为的患者识别方法,包括:获取普通住院与普通门诊类型的发生骗保行为医院的年度医保报销数据;对该医院所有患者住院和门诊数据进行预处理;构建患者训练数据集D1和测试数据集D2;利用训练数据集D1训练改进生成对抗网络模型;利用训练后的改进生成对抗网络模型,输入测试数据集D2,得到异常分值集合,据此挑选异常阈值;利用异常阈值构建分类识别模型;定期更新医院新的结算数据,更新训练集与测试集中的样本。本发明专利技术能够在骗保样本较少的情况下训练识别模型,极大缩小了当地医保部门基金监管审查数据的范围,提高工作效率。提高工作效率。提高工作效率。

【技术实现步骤摘要】
基于改进生成对抗网络的存在骗保行为的患者识别方法


[0001]本专利技术涉及数据挖掘
,具体涉及一种基于改进生成对抗网络的存在骗保行为的患者识别方法。

技术介绍

[0002]医疗保险是我国社会保险的重要组成部分,医保资金有着保障民生的重要作用,国家对其财政补助金额也日益增长。对于医保基金的欺诈盗用会对基金的正常运行造成影响,是一种十分恶劣的行为,造成的社会影响非常不好。在我国医保覆盖范围广,医保基金监管难度大的情况下,医院患者欺诈骗取医保基金的违规行为频发。由于骗保存在主体多,环节多,行为隐秘性强,骗保方式层出不穷的特点,因此打击治理欺诈骗保形势依然严峻。传统的基金监管方式多以依靠监管人员已有经验与规则进行人工监管,但这类规则一般较为简单,只对已知的欺诈策略起作用,无法自动发现新的欺诈策略;难于维护和更新,当新政策出台时,必须手动更新规则库,新的欺诈策略很容易绕过内部定义的规则。CN107145587A设计了一种基于大数据挖掘的医保反欺诈系统,但其系统涉及的内部结构及调度算法复杂,且搭建成本较高。CN111028088设计了一种基于频繁集挖掘的团伙骗保行为识别,但由于识别目标不明确,并且未将医院结算信息用于骗保识别,在面对新的骗保行为出现时缺乏灵活性。

技术实现思路

[0003]因此,本专利技术要解决的技术问题在于克服现有技术中的上述缺陷,从而提供一种基于改进生成对抗网络的存在骗保行为的患者识别方法。
[0004]为此,所述基于改进生成对抗网络的存在骗保行为的患者识别方法,具体包括如下步骤:S1:获取普通住院与普通门诊类型的发生骗保行为医院的年度医保报销数据,数据属性包括患者就诊行为信息字段、医保目录内患者费用组成字段、患者医疗费用组成字段;S2:对该医院所有患者普通住院和普通门诊的报销数据进行预处理;S3:构建患者训练数据集D1和测试数据集D2;S4:利用训练数据集D1训练改进生成对抗网络模型;S5:利用训练后的改进生成对抗网络模型,输入测试数据集D2,得到异常分值集合,据此挑选异常阈值;S6:利用异常阈值构建分类识别模型;S7:定期更新医院新的报销数据,更新训练集与测试集中的样本,重复S4至S6,分别对应更新改进生成对抗网络模型的参数和分类识别模型的参数。
[0005]优选地,步骤S1中,所述患者就诊行为信息字段包括就诊时间、住院天数,所述医保目录内患者费用组成字段包括甲类药品费用、乙类药品费用,所述患者医疗费用组成字
段包括西药费、材料费。
[0006]优选地,步骤S2具体包括如下步骤:S21:删除普通门诊和普通住院报销数据单笔报销费用中显著异常费用;S22:删除重复记录;S23:0值填充各类费用字段为空的记录;S24:从0到总类别数对类别型数据进行字典编码,将其转变为数值型数据;S25:数值归一化数值型数据,其具体计算公式为:,a表示数据缩放区间上限,b表示数据缩放区间的下限。
[0007]优选地,步骤S3具体包括如下步骤:S31:依据就诊时间将单个患者的多条报销记录组成患者特征矩阵X
w
×
h
,w为报销数据字段个数,h为患者年度报销记录最大维度,对于年度报销记录维度少于h样本进行0值填充;S32:构建仅含正常患者特征矩阵训练集以及同时包含正常患者和具有骗保行为患者的特征矩阵测试集,其中X
i
为患者特征矩阵,为样本标签,其中1表示具有骗保行为的样本,0表示正常样本。
[0008]优选地,步骤S4具体包括如下步骤:S41:利用改进生成对抗网络模型的生成器网络G,生成器网络G设置编码器网络G
E
和解码器网络G
D
两个子网络,通过输入正常患者费用特征矩阵x,得到向量z=G
E
(x)以及患者特征矩阵;S42:利用改进生成对抗网络模型的编码器网络E,通过输入患者特征矩阵,得到特征表示;S43:利用改进生成对抗网络模型的判别器网络D,通过输入患者特征矩阵,得到判别函数;S44:构建损失函数,其中,,其中,,其中,w
adv
为判别器损失函数权重,w
con
为编码器损失函数权重,w
enc
为解码器损失函数权重,E(*)为分布函数的期望值,
x~P(x)表示正常样本的分布;S45:利用输入训练数据集,通过最小化损失函数,得到训练后改进生成对抗网络模型。
[0009]优选地,步骤S41具体包括如下步骤:S411:生成器网络G首先读取一个正常患者费用特征矩阵并将其转为x,其中x∈R
w
×
h
,R
w
×
h
为x的维度;S412:将x向传递给其编码器网络G
E
,使用卷积层分别进行批规范化处理和LeakyReLU函数激活,G
E
将其特征矩阵压缩为向量z,其中z∈R
d
,R
d
为z的维度,z为具有包含单个正常患者费用特征矩阵x的最佳表示的最小维度;S413:将z传递给生成器网络G的解码器网络G
D
,G
D
采用DCGAN生成器的架构,使用卷积转置层、ReLu激活函数和批规范化处理以及最末端的tanh层将向量z向上缩放,将正常患者费用特征矩阵x重构为;S414:基于以上步骤,生成器网络G通过生成患者特征矩阵,其中z=G
E
(x),该网络设置损失函数L
con
将输入的正常患者费用特征矩阵x与生成的患者特征矩阵差距最小化:。
[0010]优选地,步骤S42具体包括如下步骤:S421:将患者特征矩阵传递到编码器网络E,用于压缩由生成器网络G重构的,它的网络结构具有与G
E
相同的网络架构;S422:E压缩以找到其特征表示,向量的维数与z的维数相同,该子网络E通过学习z的参数并利用编码损失函数L
enc
最小化z与差距:。
[0011]优选地,步骤S43具体包括如下步骤:S431:将输入x和输出输入到判别器网络D,D判别输入的图片为真实样本或者生成样本,这个子网络结构采用DCGAN的标准判别器网络;S432:该子网络结构的利用对抗性损失函数L
adv
计算判别误差:x是服从高斯分布的一个随机值,L
adv
用于使得生成样本欺骗判别器网络。
[0012]优选地,步骤S5具体包括如下步骤:S51:利用训练后改进生成对抗网络模型,输入测试集样本,得到该样本的异常分值A(x),其中,最终得到整个测试集D2异常分值集合;S52:利用步骤S25中的公式,将异常分数集合S数值区间转换到区间[0,1];S53:将测试样本异常分值升序排列,选择将测试样本中正常患者样本与骗保患者
样本区分开的异常分值阈值。
[0013]优选地,步骤S6具体包括:其中0表示正常标识,1表示骗保标识。
[0014]本专利技术提供的一种基于改进生成对抗网络的存在骗保行为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进生成对抗网络的存在骗保行为的患者识别方法,其特征在于,具体包括如下步骤:S1:获取普通住院与普通门诊类型的发生骗保行为医院的年度医保报销数据,数据属性包括患者就诊行为信息字段、医保目录内患者费用组成字段、患者医疗费用组成字段;S2:对该医院所有患者普通住院和普通门诊的报销数据进行预处理;S3:构建患者训练数据集D1和测试数据集D2;S4:利用训练数据集D1训练改进生成对抗网络模型;S5:利用训练后的改进生成对抗网络模型,输入测试数据集D2,得到异常分值集合,据此挑选异常阈值;S6:利用异常阈值构建分类识别模型;S7:定期更新医院新的报销数据,更新训练集与测试集中的样本,重复S4至S6,分别对应更新改进生成对抗网络模型的参数和分类识别模型的参数。2.根据权利要求1所述的一种基于改进生成对抗网络的存在骗保行为的患者识别方法,其特征在于,步骤S1中,所述患者就诊行为信息字段包括就诊时间、住院天数,所述医保目录内患者费用组成字段包括甲类药品费用、乙类药品费用,所述患者医疗费用组成字段包括西药费、材料费。3.根据权利要求1所述的一种基于改进生成对抗网络的存在骗保行为的患者识别方法,其特征在于,步骤S2具体包括如下步骤:S21:删除普通门诊和普通住院报销数据单笔报销费用中显著异常费用;S22:删除重复记录;S23:0值填充各类费用字段为空的记录;S24:从0到总类别数对类别型数据进行字典编码,将其转变为数值型数据;S25:数值归一化数值型数据,其具体计算公式为:,a表示数据缩放区间上限,b表示数据缩放区间的下限。4.根据权利要求1所述的一种基于改进生成对抗网络的存在骗保行为的患者识别方法,其特征在于,步骤S3具体包括如下步骤:S31:依据就诊时间将单个患者的多条报销记录组成患者特征矩阵X
w
×
h
,w为报销数据字段个数,h为患者年度报销记录最大维度,对于年度报销记录维度少于h样本进行0值填充;S32:构建仅含正常患者特征矩阵训练集以及同时包含正常患者和具有骗保行为患者的特征矩阵测试集,其中X
i
为患者特征矩阵,为样本标签,其中1表示具有骗保行为的样本,0表示正常样本。5.根据权利要求1所述的一种基于改进生成对抗网络的存在骗保行为的患者识别方法,其特征在于,步骤S4具体包括如下步骤:S41:利用改进生成对抗网络模型的生成器网络G,生成器网络G设置编码器网络G
E
和解码器网络G
D
两个子网络,通过输入正常患者费用特征矩阵x,得到向量z=G
E
(x)以及患者特征
矩阵;S42:利用改进生成对抗网络模型的编码器网络E,通过输入患者特征矩阵,得到特征表示;S43:利用改进生成对抗网络模型的判别器网络D,通过输入患者特征矩阵,得到判别函数;S44:构建损失函数,其中,,其中,,其中,w
adv
为判别器损失函数权重,w
con
为编码器损失函数权重,w
enc
为解码器损失函数权重,E(*)为分布函数的期望值,x~P(x)...

【专利技术属性】
技术研发人员:陈妍金赞周文慧梁伟李明杰罗雪琴
申请(专利权)人:湖南工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1