一种同质人群医保欺诈检测方法技术

技术编号:34323587 阅读:11 留言:0更新日期:2022-07-31 00:41
一种高效准确的同质人群医保欺诈检测方法,可以在海量医保结算数据中筛选出疑似医保欺诈的同质人员,包括:首先建立大数据处理平台,对医保原始数据进行数据清洗,数据重构等数据预处理操作提取可用信息;然后采用同质人群医保欺诈检测算法对数据进行分类,筛选出可疑同质人群;再利用筛选机制排除正常就医患者获得最终结果。本发明专利技术应用于医保欺诈检测领域当中,能有效地降低了医保稽核人员的工作量,减少医保基金被滥用的情况。减少医保基金被滥用的情况。减少医保基金被滥用的情况。

【技术实现步骤摘要】
一种同质人群医保欺诈检测方法


[0001]本专利技术涉及医保欺诈检测领域,尤其涉及一种同质人群医保欺诈检测方法。

技术介绍

[0002]随着我国医保覆盖面越来越广,全国各地医保基金支付压力也持续增大。为了保障医保基金被合法合理地使用,需要采用相应算法对医保结算记录进行核验,找出疑似欺诈的人群。目前主流的方法都需要应用机器学习算法或深度学习模型,在机器学习算法中,又分为有监督算法和无监督算法。由于医保数据量大、欺诈情况复杂、欺诈行为多变以及医保欺诈检测需要大量的临床诊断知识,导致用单一方法无法对各种诈骗行为进行统一检测。
[0003]通过研究大量欺诈案例以及调研数据,不难发现最常见的医保欺诈行为模式是通过非法收集多张医保卡进行大量就诊购药,随后将低价购得的药高价卖出。在结算数据上体现出来的情况是部分医保卡频繁地同时结算并且购得大量容易倒卖的药品。检测类似的医保欺诈行为我们称之为同质人群检测。在同质人群检测领域,主要有以下方法:
[0004]1.基于频繁模式挖掘算法。常见的频繁模式挖掘算法有Apriori 算法、FP

Growth算法等,这类算法的优点是实现简单,人为设置参数少,应用范围广,但是精度不高。
[0005]2.基于机器学习和深度学习模型的算法。常见的算法模型有随机森林算法、Boosting算法以及各种神经网络模型等。这类算法的优点是算法适应性强,准确率高。但是模型的构建和调试困难。
[0006]然而基于频繁模式挖掘的算法存在算法效率低、存在大量误识别案例等问题。因此本文设计了一种同质人群医保欺诈检测方法,该方法对于提高医保欺诈检测率,为医保基金保驾护航有重大意义。

技术实现思路

[0007]本专利技术为克服上述不足之处,提供一种同质人群医保欺诈检测方法,该专利技术基于传统Apriori算法,通过改善算法关键步骤大大降低了算法的时间复杂度,通过引入筛查机制过滤出正常就医的患者,大大降低了频繁模式挖掘算法的误检测率。该方法充分考虑到了现有算法的缺陷,很大程度上提高了算法的运算速度和运算精度,因此意义重大。
[0008]本专利技术通过以下技术方案达到上述目的,一种同质人群检测方法,包括以下步骤:
[0009](1)利用大数据框架Hadoop对原始数据进行分布式存储和计算。
[0010](2)利用数据仓库工具Hive按不同数据粒度对原始数据进行分层聚合。
[0011](3)利用改进后的Apriori算法对聚合数据进行分析,得到频繁就诊购药人群。
[0012](4)利用筛选机制去除正常购药患者,得到构成同质人群欺诈的最终结果。
[0013]所述步骤(1)具体为:根据数据量需求选择一定数量的服务器,并在这些服务器上搭建Hadoop分布式服务集群。其中包括:
[0014](1.1)利用Flume框架和Kafka框架将原始数据从业务数据库导入到HDFS。
[0015](1.2)存入Hive表ODS层作为备份。后续的步骤如果出现错误,也可以从ODS层利用备份数据重新计算。
[0016](1.3)利用Hadoop的MapReduce进行分布式计算,大大降低运算时间。
[0017]所述步骤(2)具体为:利用数据仓库工具Hive按不同数据粒度对原始数据进行分层聚合。对原始数据进行分层处理,共分为5层架构。底层对源数据进行备份保存;第二层对源数据进行数据清洗、空缺值填充、数据归约等操作;第三层按天为数据粒度对数据进行整合;第四层按月为粒度对数据进行整合;第五层按业务需求对前四层的结果进行聚合,字段规约等操作。
[0018]所述步骤(3)具体为:
[0019](3.1)设置合适的最小置信度。
[0020](3.2)读取数据库,并在内存中存储数据,避免多次扫描数据库。
[0021](3.3)获取元素数量为1的候选集。
[0022](3.4)清理不满足最小支持度的项集。
[0023](3.5)由第k轮产生的频繁项集两两组合成第k+1轮的候选集。
[0024](3.6)重复(3.4)

(3.5)步直至候选集为空。
[0025](3.7)输出异常就医人群个人编号。
[0026]步骤(3.1)所述的设置合适的最小置信度会在很大程度上影响计算过程的复杂度和输出结果。因此最小置信度的设置必须要从实际需求出发。
[0027]作为优选,(3.2)读取数据库,并在内存中存储数据,避免多次扫描数据库;在内存中存储数据,是一种用空间换时间的策略,可以大大降低算法执行时的I/O消耗.在内存中用三维矩阵存储记录, x轴表示患者编号,y轴表示医院编号,z轴表示日期;
[0028]其中患者编号:
[0029]p∈P,P={p1,p2,p3,...,p
n
}
ꢀꢀꢀ
(1)
[0030]医院编号:
[0031]h∈H,H={h1,h2,h3,...,h
n
}
ꢀꢀꢀ
(2)
[0032]日期:
[0033]d∈D,D={d1,d2,d3,...,d
n
}
ꢀꢀꢀ
(3)
[0034]步骤(3.2)所述的在内存中存储数据能大大降低算法的时间复杂度。在传统Apriori算法中,每次生成候选集都要重新扫描数据库, I/O消耗时间占比很大。改进后,用三维布尔矩阵存储记录。这样设计可以极大减少读取数据库的时间,并且算法读取内存时定位方便。用布尔矩阵存储可以使单位存储空间达到最小,进一步地,可以在同样的情况下存储更多的就诊数据。步骤(3.3)为生成候选集,每个候选集中的元素数量为1。
[0035]作为优选,步骤(3.4)所述的清理不满足最小支持度的频繁项集需要先计算每个候选项集的支持度,再与最小支持度进行比对。这个比对会消耗大量的计算时间,而在原生Apriori算法中的复杂度过高,可以对其进行优化。首先优化了项集两两组合加入候选集的策略,大大减少了每一轮候选集中元素的数量;其次优化了计算组合支持度的方式,通过布尔值的与运算代替数值运算,大大降低了运算时间消耗。具体步骤如下:
[0036](3.4.1)在布尔矩阵中根据组合中n个患者的个人编号获取这些患者在布尔矩阵中的下标,并用n个向量将相关数据保存。
[0037](3.4.2)将这n个向量(V1,V2,V3,
……
,V
n
)进行交运算,用符号”∧”代替。
[0038](3.4.3)通过步骤(3.4.2),可以得到结果向量。只要计算该结果向量的支持度,即为这n个患者整体的组合支持度,即:
[0039][0040]作为优选,步骤(3.5)所述的频繁项集两两组合生成新的候选集时会产生大量重复项集,如果把这些重复项集都加入候选集,则会产生大量重复运算。因此在频繁项集两两组合生成新的候选集之后,需要对候选集进行判断是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种同质人群医保欺诈检测方法,其特征在于,包括如下步骤:(1)利用大数据框架Hadoop对原始数据进行分布式存储和计算;(2)利用数据仓库工具Hive按不同数据粒度对原始数据进行分层聚合;对原始数据进行分层处理,共分为5层架构,分别为原始数据层、数据明细层、数据服务层、数据主题层、应用数据层;原始数据层对源数据进行备份保存;数据明细层对源数据进行数据清洗、空缺值填充、数据归约的操作;数据服务层按天为数据粒度对数据进行整合;数据主题层按月为粒度对数据进行整合;应用数据层按业务需求对前四层的结果进行聚合、字段规约的操作;(3)利用改进后的Apriori算法对聚合数据进行分析,得到频繁就诊购药人群;(3.1)设置合适的最小置信度;设置合适的最小置信度会在很大程度上影响计算过程的复杂度和输出结果;因此最小置信度的设置必须要从实际需求出发;(3.2)读取数据库,并在内存中存储数据,避免多次扫描数据库;在内存中存储数据,是一种用空间换时间的策略,可以大大降低算法执行时的I/O消耗.在内存中用三维矩阵存储记录,x轴表示患者编号,y轴表示医院编号,z轴表示日期;其中患者编号:p∈P,P={p1,p2,p3,...,p
n
}
ꢀꢀꢀꢀ
(1)医院编号:h∈H,H={h1,h2,h3,...,h
n
}
ꢀꢀꢀꢀ
(2)日期:d∈D,D={d1,d2,d3,...,d
n
}
ꢀꢀꢀꢀꢀ
(3)(3.3)获取元素数量为1的候选集;(3.4)清理不满足最小支持度的项集;优化了Apriori算法中计算组合支持度的方法,采用向量的位运算计算支持度,具体包括:(i)在布尔矩阵中根据组合中n个患者的个人编号获取这些患者在布尔矩阵中的下标,并用n个向量将相关数据保存;(ii)将这n个向量(V1,V2,V3,
……
,Vn)进行交运算;(iii)通过步骤(ii),可以得到结果向量;只要计算该结果向量的支持度,即为这n个患者整体的组合支持度,即:(3.5)...

【专利技术属性】
技术研发人员:丁泽宇赵小敏
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1