医保报销异常数据检测方法及系统技术方案

技术编号:30167590 阅读:20 留言:0更新日期:2021-09-25 15:24
本公开提出了医保报销异常数据检测方法及系统,包括:获取就医数据,进行数据处理,包括数据清洗及特征提取;基于处理后的数据,构建模糊C

【技术实现步骤摘要】
医保报销异常数据检测方法及系统


[0001]本公开属于计算机
,尤其涉及医保报销异常数据检测方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。
[0003]自基本医疗保障制度建立以来,覆盖范围不断扩大,保障水平稳步提升,对维护人民群众健康权益、缓解因病致贫、推动医药卫生体制改革发挥了积极作用。然而受监管制度体系不健全、检测机制不完善等因素制约,欺诈骗保问题普发频发,针对医保报销异常,目前大多是人工检测,效率过低且存在人为干预的问题。
[0004]数据异常是指医院或医保部门工作人员在对病人的医保结算单据进行人工审核时,发现有所开药品属于参保人的禁忌用药或者不是用于本次治疗疾病所需得药品或者某种药的数量过高或者某两种药由于药性原因并不能同时开具,在病人的单据上出现此类数据,称为数据异常。
[0005]目前,通过提取就医数据,运用机器学习算法,进行医保报销异常检测可以大大提高检测效率,但运用机器学习算法多是采用硬聚类的方式,不够灵活且易错分。
[0006]硬聚类就是说每一个样本点都必须“非此即彼”的被分到某一个簇中。不是0就是1与硬聚类对应的是软聚类,针对每一个样本点,软聚类算法计算该点属于不同簇的概率,这是一种模糊的概念,它不要求样本点和簇之间“非此即彼”的映射,而是允许样本点以不同的概率所属于不同的簇。
[0007]一般硬聚类算法为K

means聚类、HCM聚类,软聚类包括模糊C
/>means聚类、GMM(高斯混合模型)聚类。
[0008]就医数据的数据错分是指由于硬聚类非此即彼的判断方法,很容易根据病人医保结算单据某些由于就医频次低、药品费用高等正常原因而导致的异常数据,将其归为骗取医保基金行为,现有技术中存在上述数据处理方法导致的就医数据的数据错分的现象。

技术实现思路

[0009]为克服上述现有技术的不足,本公开提供了医保报销异常数据检测方法,对就医信息进行聚类,能够有效解决硬聚类方法的不足,不会生硬的对就医人员进行聚类,避免检测过程中出现误判、多判的情况。
[0010]为实现上述目的,本公开的一个或多个实施例提供了如下技术方案:
[0011]第一方面,公开了医保报销异常数据检测方法,包括:
[0012]获取就医数据,进行数据处理,包括数据清洗及特征提取;
[0013]基于处理后的数据,构建模糊C

means聚类模型,利用所述模型对待测就医数据进行聚类,获得聚类结果,输出疑似异常数据;
[0014]针对疑似异常数据进行推送,再次进行检测,确定是否为真正异常数据。
[0015]进一步的技术方案,获取的就医数据为从医保报销相关数据库中获得,获得后进行整合,将医院的就医诊断数据和医保局的报销数据通过唯一ID身份证进行整合。
[0016]进一步的技术方案,整合后的数据存入结构化数据集中,针对数据集,进行数据清洗,针对清洗后的数据进行特征提取,特征提取时剔除对判断数据是否为异常数据关联小的特征。
[0017]进一步的技术方案,模糊C

means聚类模型为通过数据集构建的复杂的多维函数,输出目标值为通过模糊聚类算法判断的疑似异常数据,输入为提取的特征。
[0018]进一步的技术方案,模糊C

means聚类算法通过最小化目标函数来得到聚类中心;
[0019]目标函数本质上是各个点到各个类的欧式距离的和,聚类的过程就是最小化目标函数的过程,通过反复的迭代运算,逐步降低目标函数的误差值,当目标函数收敛时,可得到最终的聚类结果。
[0020]进一步的技术方案,模糊C

means聚类算法简单来说分为四步:
[0021](1)建立标准化数据矩阵;
[0022](2)建立模糊相似矩阵,初始化隶属矩阵;
[0023](3)算法开始迭代,直到目标函数收敛到极小值;
[0024](4)根据迭代结果,由最后的隶属矩阵确定数据所属的类,显示最后的聚类结果。
[0025]进一步的技术方案,对清洗后的就医数据集,使用方差筛选法,设置过滤阈值为0,过滤掉特征方差较小的特征,通过主成分分析法降低特征矩阵维度。
[0026]第二方面,公开了医保报销异常数据检测系统,包括:
[0027]特征提取模块,被配置为:获取就医数据,进行数据处理,包括数据清洗及特征提取;
[0028]疑似异常数据输出模块,被配置为:基于处理后的数据,构建模糊C

means聚类模型,利用所述模型对待测就医数据进行聚类,获得聚类结果,输出疑似异常数据;
[0029]异常数据确定模块,被配置为:针对疑似异常数据进行推送,再次进行检测,确定是否为真正异常数据。
[0030]以上一个或多个技术方案存在以下有益效果:
[0031]本专利技术通过收集就医人员的就医数据,进行数据清洗,基于机器学习算法进行医保报销异常检测,针对评分过低的就医人员,智能提示给相关工作人员,进行重点检测审核,计算过程短,计算结果准确,能够极大地解放人工,提高工作效率。
[0032]本专利技术基于模糊C

means聚类算法,对就医人员进行聚类,即聚类是根据病人的就医信息对病人聚类,能够有效解决硬聚类方法的不足,不会生硬的对就医人员进行聚类,避免检测过程中出现误判、多判的情况。
[0033]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0034]构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
[0035]图1为本公开实施例系统框图;
[0036]图2为本公开实施例方法流程图。
具体实施方式
[0037]应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属
的普通技术人员通常理解的相同含义。
[0038]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0039]在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
[0040]实施例一
[0041]本实施例公开了一种基于模糊C

means聚类算法的医保报销异常检测方法,包括以下步骤:
[0042]步骤一:整合医保报销相关数据库,整合时通过病人唯一的id,如本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.医保报销异常数据检测方法,其特征是,包括:获取就医数据,进行数据处理,包括数据清洗及特征提取;基于处理后的数据,构建模糊C

means聚类模型,利用所述模型对待测就医数据进行聚类,获得聚类结果,输出疑似异常数据;针对疑似异常数据进行推送,再次进行检测,确定是否为真正异常数据。2.如权利要求1所述的医保报销异常数据检测方法,其特征是,获取的就医数据为从医保报销相关数据库中获得,获得后进行整合,将医院的就医诊断数据和医保局的报销数据通过唯一ID身份证进行整合。3.如权利要求1所述的医保报销异常数据检测方法,其特征是,整合后的数据存入结构化数据集中,针对数据集,进行数据清洗,针对清洗后的数据进行特征提取,特征提取时剔除对判断数据是否为异常数据关联小的特征。4.如权利要求1所述的医保报销异常数据检测方法,其特征是,模糊C

means聚类模型为通过数据集构建的复杂的多维函数,输出目标值为通过模糊聚类算法判断的疑似异常数据,输入为提取的特征。5.如权利要求1所述的医保报销异常数据检测方法,其特征是,模糊C

means聚类算法通过最小化目标函数来得到聚类中心;目标函数本质上是各个点到各个类的欧式距离的和,聚类的过程就是最小化目标函数的过程,通过反复的迭代运算,逐步降低目标函数的误差值,当目标函数收敛时,可得到最终的聚类结果。6.如权利要求...

【专利技术属性】
技术研发人员:于秋波钱进赵静王通智高超郝敬勇程秋晨
申请(专利权)人:山大地纬软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1