一种基于主成分分析算法的医保欺诈识别方法技术

技术编号:15691251 阅读:119 留言:0更新日期:2017-06-24 04:18
本发明专利技术提出了一种基于主成分分析算法的医保欺诈识别方法,包括:获取医保基础数据,生成医保结构化数据集;对各项数据进行标准化处理,生成标准化矩阵;计算标准化矩阵的协方差矩阵,并求解样本协方差矩阵的特征方程,确定主成分;将标准化后的指标变量转换为主成分得分;分别计算每个主成分得分的均值和标准差,根据切比雪夫定律计算每个主成分维度下的异常阈值;以每个主成分为坐标,制作二维空间散点图,将每个散点代表实际医保账户,判断大于步骤S5中异常阈值的医保报销账号视为异常帐号。本发明专利技术对医保数据进行清洗、整理,采取主成分分析方法,对与欺诈行为相关的变量进行特征降维,根据统计学方法计算异常阈值,对医保欺诈高风险识别。

A medical fraud identification method based on principal component analysis algorithm

The invention provides an algorithm based on principal component analysis of the medical insurance fraud identification method, including: obtaining medical insurance data, generating structured data sets of the medical insurance; data standardization, standardization of generating matrix; calculate the covariance matrix matrix standardization, and the characteristic equation of the sample covariance matrix, to determine the main components; the variables of the normalized conversion component scores were calculated respectively; the mean and standard deviation of each principal component scores, calculate the abnormal threshold of each principal component dimension according to the Chebyshev law; each principal component is to coordinate, making two-dimensional scatter plots, each dot represents the actual Medicare accounts, judge is greater than the anomaly threshold step S5 in the Medicare reimbursement account as abnormal account. The invention of Medicare data cleaning, sorting, taking the principal component analysis method is adopted to reduce the dimensionality of fraud related variables, to calculate the abnormal threshold according to statistical methods, high risk identification of insurance fraud.

【技术实现步骤摘要】
一种基于主成分分析算法的医保欺诈识别方法
本专利技术涉及计算机应用
,特别涉及一种基于主成分分析算法的医保欺诈识别方法。
技术介绍
随着社会经济的发展,国家为了给老百姓提供更好的医保环境,医保政策越来越好。然而,一些人通过各种各样的手段骗取医保,导致医保基金不合理流失。另一方面,由于经办机构的监管模式主要以人工审核监管为主,多采用基于简单规则的数据筛选方法,从医疗基金收支监测、简单指标预警等方面开展基金风险管理工作,不仅速度慢,人力成本高,而且难以保证对欺诈行为的识别准确度。在现有的技术中,专利(申请号:201510760477.4;名称:一种医疗保险异常数据在线智能检测方法)提出,对已标注为异常的医保数据样本进行特征学习,然后运用机器学习算法进行在线检查,然而如何确定目标样本是否异常,该专利并未涉及。此外,专利(申请号:201410598935.4;名称:一种基于数据挖掘的医保欺诈行为的检测方法)采取对医保参保人的信息记录进行分位数打分的方法确定异常级别,并将多种异常类别简单加总确定总异常分值。该方法把连续性变量人为分段,损失了数据信息,而且忽略了各变量间可能存在的相关性,使本文档来自技高网...
一种基于主成分分析算法的医保欺诈识别方法

【技术保护点】
一种基于主成分分析算法的医保欺诈识别方法,其特征在于,包括如下步骤:步骤S1,获取医保基础数据,生成医保结构化数据集X;步骤S2,对所述医保结构化数据集X中的各项数据进行标准化处理,生成标准化矩阵Z;步骤S3,计算所述标准化矩阵Z的协方差矩阵R,并求解样本协方差矩阵R的特征方程,确定主成分;步骤S4,将标准化后的指标变量转换为主成分得分;步骤S5,分别计算每个主成分得分的均值和标准差,根据切比雪夫定律计算每个主成分维度下的异常阈值;步骤S6,以每个主成分为坐标,制作二维空间散点图,将每个散点代表实际医保账户,判断大于步骤S5中异常阈值的医保报销账号视为异常帐号,将异常帐号以可视化形式进行呈现。

【技术特征摘要】
1.一种基于主成分分析算法的医保欺诈识别方法,其特征在于,包括如下步骤:步骤S1,获取医保基础数据,生成医保结构化数据集X;步骤S2,对所述医保结构化数据集X中的各项数据进行标准化处理,生成标准化矩阵Z;步骤S3,计算所述标准化矩阵Z的协方差矩阵R,并求解样本协方差矩阵R的特征方程,确定主成分;步骤S4,将标准化后的指标变量转换为主成分得分;步骤S5,分别计算每个主成分得分的均值和标准差,根据切比雪夫定律计算每个主成分维度下的异常阈值;步骤S6,以每个主成分为坐标,制作二维空间散点图,将每个散点代表实际医保账户,判断大于步骤S5中异常阈值的医保报销账号视为异常帐号,将异常帐号以可视化形式进行呈现。2.如权利要求1所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S1中,所述医保基础数据,包括:医保基金帐号、每个帐号基金报销总额、门诊天数、基金报销比例和门诊花费总额。3.如权利要求2所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S1中,计算每个医保基金账号每天门诊花费总额和基金报销总额,进而计算每年门诊报销总天数、基金报销额和基金报销比例,生成医保结构化数据集X。4.如权利要求1所述的基于主成分分析算法的医保欺诈识别方法,其特征在于,在所述步骤S2中,采集样本向量x=(X1,X2,X3)T),n个样品xi=(xi1,xi2,xi3)T,i=1,2,…,n,进行如下标准化变换:

【专利技术属性】
技术研发人员:谢国亮程岚孙志强张宪录孙广阳
申请(专利权)人:天津艾登科技有限公司
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1