基于SSGAN的不平衡医保数据分类方法技术

技术编号：19512161 阅读：36 留言：0更新日期：2018-11-21 08:17

本发明专利技术公开了一种基于SSGAN的不平衡医保数据分类方法，涉及信息技术领域，该基于SSGAN的不平衡医保数据分类方法通过改进原始SSGAN网络，使之在训练过程中只生成弱势类样本，从而减小强势类和弱势类样本数量上的差距，降低数据集的不平衡度，从而提高其分类器的分类精度。该基于SSGAN的不平衡医保数据分类方法改进过后的SSGAN模型分类效果皆明显高于其他两个模型，并且随着比例的增加，改进过后的SSGAN网络的对原始SSGAN的优势越发明专利技术显。当政府样本比例达到19:1，即弱势类样本总数占训练集的5％时，我们的方法正确率比原始SSGAN提高了43.34％。

全部详细技术资料下载

【技术实现步骤摘要】
基于SSGAN的不平衡医保数据分类方法
本专利技术涉及信息
，特别涉及一种基于SSGAN的不平衡医保数据分类方法。
技术介绍
近年来，不平衡数据集给分类方法带来的不利影响已经引起了学者的高度重视，不平衡数据集的分类方法可以分类为基于数据(Data-based)的方法、基于算法(Algorithm-based)的方法。基于数据的方法可以理解为一种数据预处理方法，从数据集内类别间样本的数量上不平衡性的角度出发，改善数据集的不平衡性。GAN的专利技术者IanGoodfellow在2016年提到了GAN用于半监督学习(semisupervised)的方法，称为SSGAN。将GAN应用于半监督分类任务时，只需要对最初的GAN的结构做稍微改动，即把discriminator模型的输出层替换成softmax分类器。假设训练数据有k类，那么在训练GAN模型的时候，可以把generator模拟出来的样本归为第k+1类，而softmax分类器也增加一个输出神经元，用于表示discriminator模型的输入为“假数据”的概率，这里的“假数据”具体指generator生成的样本。有的基于数据的分类方法，通过改变原始数据集内样本数来改变数据集的不平衡性，或将弱势类样本数增多或强势类样本数变少，以达到数据集不同类别的样本数相同或者近似相同。过采样和欠采样技术各有其优缺点，过采样技术通过人工引入新样本，不会丢失原有数据集的信息，但同时引入了新样本的额外信息，一旦引入的新样本分布不好(如是噪声数据或者是错误数据)，会产生过拟合问题，则会对后续分类算法造成非常不利的影响；而欠采样技...

【技术保护点】
1.一种基于SSGAN的不平衡医保数据分类方法，其特征在于：所述基于SSGAN的不平衡医保数据分类方法包括数据集，数据集为非平衡数据集，医保骗保数据集是典型的非平衡数据集。医保骗保数据集中涉嫌骗保的样本类为弱势类，将其标记为‘1’，看做负样本，不涉嫌骗保的样本类为强势类，标记为‘0’，看做正样本，该基于SSGAN的不平衡医保数据分类方法首先利用tensorflow搭建适用于结构化数据的神经网络，再改进SSGAN中生成器网络的损失函数，使之在训练过程中只产生弱势类数据，从而提高分类器在弱势类上的分类精度。针对医保数据，则是通过将生成器的损失函数修改为：Lgenerator＝max(EZ～p(z)log[p(y＝1|x)])，其中p(z)表示随机噪声分布(如高斯噪声)，E(·)是期望计算函数，由此产生标签为‘1’的弱势类样本。具体步骤如下：Step1：对医保骗保数据集进行预处理，填补缺失值；Step2：通过特征工程对医保骗保数据集进行特征提取，扩充数据集维度；Step3：利用tensorflow搭建适用于结构化数据的SSGAN网络；Step4：改进SSGAN中生成器网络的损失函数，使之产生...

【技术特征摘要】
1.一种基于SSGAN的不平衡医保数据分类方法，其特征在于：所述基于SSGAN的不平衡医保数据分类方法包括数据集，数据集为非平衡数据集，医保骗保数据集是典型的非平衡数据集。医保骗保数据集中涉嫌骗保的样本类为弱势类，将其标记为‘1’，看做负样本，不涉嫌骗保的样本类为强势类，标记为‘0’，看做正样本，该基于SSGAN的不平衡医保数据分类方法首先利用tensorflow搭建适用于结构化数据的神经网络，再改进SSGAN中生成器网络的损失函数，使之在训练过程中只产生弱势类数据，从而提高分类器在弱势类上的分类精度。针对医保数据，则是通过将生成器的损失函数修改为：Lgenerator＝max(EZ～p(z)lo...

【专利技术属性】
技术研发人员：陈雷霆，李巧平，陈秋生，周听听，周聪宇，刘薇，
申请(专利权)人：东莞迪赛软件技术有限公司，电子科技大学广东电子信息工程研究院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人