当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于模糊邻域粗糙集的医保欺诈检测方法技术

技术编号:38934203 阅读:18 留言:0更新日期:2023-09-25 09:37
本发明专利技术公开了一种基于模糊邻域粗糙集的医保欺诈检测方法,涉及医疗健康技术领域,针对现有的欺诈检测方法存在的不适用于处理具有模糊性、异构、非平衡性等特点的不确定性数据的问题,现提出如下方案,包括S1:获取医保数据,对数据进行规范化预处理,导入模糊邻域信息系统;S2:基于信息系统计算模糊相似关系;S3:根据模糊相似关系,构造不同属性子集的模糊邻域信息粒及信息粒结构;S4:计算模糊邻域下近似比率。S5:根据模糊邻域下近似比率,计算模糊邻域信息粒的异常程度;S6:根据信息粒的异常程度,计算所有参保人的异常分数;S7:通过阈值判定异常值,输出存在欺诈行为的参保人。本发明专利技术解决了现有的欺诈检测方法存在难以处理具有模糊性、异构、非平衡性等特点的不确定性数据的问题,并能够避免离散化数值数据导致的重要信息的丢失和数据处理时间延长问题,且无需人工标记数据,大大降低医保数据处理成本,提高医保欺诈检测效率和精度。提高医保欺诈检测效率和精度。提高医保欺诈检测效率和精度。

【技术实现步骤摘要】
一种基于模糊邻域粗糙集的医保欺诈检测方法


[0001]本专利技术涉及医疗健康
,尤其涉及一种基于模糊邻域粗糙集的医保欺诈检测方法。

技术介绍

[0002]医疗保障制度是一项减轻群众就医负担、维护社会稳定的重要制度。但随着医疗保险覆盖面的不断扩大、保障水平的不断提高,医疗保险欺诈行为频发,这种违法行为不仅损害了参保人的合法权益,更严重危害医保基金的安全,阻碍了医保政策的实施。传统的医保欺诈检测方法主要是依赖于人工制定规则并进行审核,该方法具有较高的主观性,且需要耗费大量人力物力,难以准确、高效地处理庞大繁杂的医保数据。随着机器学习、数据挖掘等技术的不断发展,利用信息化技术进行医保欺诈检测的技术应运而生,有效提高了欺诈检测的准确率和效率。现有的信息化医保欺诈检测技术可根据是否需要先验知识分为有监督方法和无监督方法。如神经网络、决策树、支持向量机等有监督方法使用大量已知类别(即正常行为或欺诈行为)的样本训练模型,调整模型参数,使模型学习到样本与样本类别的关系,再使用训练好的模型对未知类别样本进行分类。无监督方法则不需要类别标签,而是通过分析和挖掘样本之间的关系来判断是否存在欺诈行为,包括聚类分析、离群检测、关联规则分析等方法。离群检测又称为异常检测,在该方法中欺诈行为被称为离群点或异常值。
[0003]有监督方法对已知类别的数据具有较强依赖性,对类别标签敏感,难以处理医保欺诈检测这类数据不平衡任务,其中基于深度学习的神经网络方法更是需要大量数据来支撑模型的训练,且可解释性较差,而在实际应用中对医保数据进行人工标注需要耗费大量人力物力,且欺诈类数据占比低,数据类别不平衡,对标注数据的依赖性使有监督方法对已有的欺诈模式检出率高,但难以识别新型多变的欺诈行为,关联规则分析方法只能发现特征间的线性关系,难以处理复杂的医保数据。
[0004]综上所述,现有的欺诈检测方法存在不适用于处理具有模糊性、异构、非平衡性等特点的不确定性数据的缺点。

技术实现思路

[0005]本专利技术的目的是为了解决现有的欺诈检测方法存在的不适用于处理具有模糊性、异构、非平衡性等特点的不确定性数据的缺点,而提出一种基于模糊邻域粗糙集的医保欺诈检测方法。
[0006]为了实现上述目的,本专利技术采用了如下技术方案:
[0007]一种基于模糊邻域粗糙集的医保欺诈检测方法,包括以下步骤:
[0008]S1:获取医保数据,对数据进行规范化预处理,导入模糊邻域信息系统:
[0009]针对数值型属性,对其进行最小最大规范化处理,规范化后属性在[0,1]区间,分类型属性则不做该处理;
[0010]a

=(a

a
min
)/(a
max

a
min
)
[0011]其中,a

代表属性a经过规范化后的属性值,a
max
和a
min
分表代表属性a的值域集合中的最大值和最小值;
[0012]S2:基于信息系统计算模糊相似关系:
[0013]在模糊粗糙集理论中,数据被导入一个信息系统,其中每行为一个参保人,每列为一种属性;一个无决策模糊邻域信息系统可以表示为<OB,AT,V,f,ε>,其中OB={o1,o2,...,o
n
}是所有参保人组成的集合,AT={a1,a2,...,a
m
}是所有属性组合的集合,V是单个属性的值域V
a
的并集V=∪
a∈AT
V
a
,f代表一个映射关系f:OB
×
AT

V,ε∈[0,1]是一个代表邻域半径的可调节参数;决策属性是指能决定参保人类别的属性,即类别标签(如正常或异常);因为属性集合AT不包含决策属性,因此该信息系统是无决策的;设A是AT集合的子集,任意属性a∈A可诱导一模糊相似关系R
a
,R
a
可以表示为矩阵形式,其中的任意元素R
a
(o,q),又称为隶属函数,代表参保人o和参保人p之间的相似度,其计算公式如下:
[0014][0015]其中,f(o,a)和f(q,a)分别代表了参保人o和参保人p在属性a上的取值;进而可以计算由任意属性子集A诱导的模糊相似关系R
A
,其隶属函数计算如下:
[0016][0017]S3:根据模糊相似关系,构造不同属性子集的模糊邻域信息粒及信息粒结构;
[0018]S4:根据模糊邻域信息粒,计算模糊邻域下近似比率:
[0019]作为粗糙集理论中的一对重要概念,上下近似用于衡量不同粗糙集之间的隶属程度;对任意不相等的属性子集模糊邻域信息粒关于属性子集B的模糊邻域上下近似定义如下:
[0020][0021][0022]进一步使用模糊邻域下近似与参保人集合的基数来定义模糊邻域下近似比率,公式如下:
[0023][0024]其中代表下近似集的基数,|OB|代表参保人集合的基数,易知
[0025]由此可以计算得出属性子集的模糊邻域下近似比率,分别为
[0026]S5:根据模糊邻域下近似比率,计算模糊邻域信息粒的异常程度:
[0027]异常程度是衡量模糊邻域信息粒离群程度的一个定量指标;使用模糊邻域下近似
比率来定义异常程度,对于给定的模糊邻域信息粒其相对于一组属性子集的模糊邻域下近似比率均较低,则该信息粒行为异常,对应的异常程度较高;为减少计算量,仅选择单个属性子集来计算异常程度,公式如下:
[0028][0029]其中权重代表该模糊邻域信息粒的基数;
[0030]由此可以计算出所有参保人在任意单一属性上的异常程度;
[0031]S6:根据信息粒的异常程度,计算所有参保人的异常分数:
[0032]异常分数是用于衡量参保人是异常值的可能性的指标,异常分数越高,该参保人越可能是异常值即欺诈行为;通过集成参保人o
i
的模糊邻域信息粒的异常程度和相应权重来定义其的异常分数:
[0033][0034]其中权重该权重将模糊邻域信息粒的基数作为衡量参保人异常可能性的因素之一,数量更少的异常值其相应的权重更大,因此异常分数也越高;
[0035]由此可以计算出所有参保人的异常分数;
[0036]S7:通过阈值判定异常值:
[0037]设定异常分数阈值λ,若参保人o
i
的异常分数AS(o
i
)>λ,则判定参保人o
i
为异常值;由此能判断出所有参保人中的异常参保人。
[0038]在一个优选的实施方式中,所述S3根据模糊相似关系,构造不同属性子集的模糊邻域信息粒及信息粒结构,包括:
[0039]S3.1任何非空有限集合均可以诱导相应的模糊相似关系,进而构造一个信息粒;含有m个元素的属性子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模糊邻域粗糙集的医保欺诈检测方法,其特征在于,包括以下步骤:S1:获取医保数据,对数据进行规范化预处理,导入模糊邻域信息系统:针对数值型属性,对其进行最小最大规范化处理,规范化后属性在[0,1]区间,分类型属性则不做该处理;a

=(a

a
min
)/(a
max

a
min
)其中,a

代表属性a经过规范化后的属性值,a
max
和a
min
分表代表属性a的值域集合中的最大值和最小值;S2:基于信息系统计算模糊相似关系:在模糊粗糙集理论中,数据被导入一个信息系统,其中每行为一个参保人(或对象),每列为一种属性;一个无决策模糊邻域信息系统可以表示为<OB,AT,V,f,ε>,其中OB={o1,o2,...,o
n
}是所有参保人组成的集合,AT={a1,a2,...,a
m
}是所有属性组合的集合,V是单个属性的值域V
a
的并集V=∪
a∈AT
V
a
,f代表一个映射关系f:OB
×
AT

V,ε∈[0,1]是一个代表邻域半径的可调节参数;因为属性集合AT不包含决策属性,因此该信息系统是无决策的;设A是AT集合的子集,任意属性a∈A可诱导一模糊相似关系R
a
,R
a
可以表示为矩阵形式,其中的任意元素R
a
(o,q),又称为隶属函数,代表参保人o和参保人p之间的相似度,其计算公式如下:其中,f(o,a)和f(q,a)分别代表了参保人o和参保人p在属性a上的取值;进而可以计算由任意属性子集A诱导的模糊相似关系R
A
,其隶属函数计算如下:S3:根据模糊相似关系,构造不同属性子集的模糊邻域信息粒及信息粒结构;从AT={a1,a2,...,a
m
}中选取单个属性构造共m个单一属性子集A={A
c
|c=1,2,...,m},其中A
c
={a
c
};之后,对于任意单一属性子集A
c
,计算其对于AT的补集来获取m个属性子集T={T
c
|c=1,2,...,m},其中最后,依次选择T
c
中的元素计算其对于T
c
的补集来获取属性子集其中对于属性子集使用其诱导的模糊相似关系R
A
和给定的模糊邻域半径ε∈[0,1]来构造关于参保人o
i
的模糊邻域信息粒:其中,隶属函数计算公式为:S4:根据模糊邻域信息粒,计算模糊邻域下近似比率:作为粗糙集理论中的一对重要概念,上下近似用于衡量不同粗糙集之间的隶属程度;
对任意不相等的属性子集模糊邻域信息粒关于属性子集B的模糊邻域上下近似定义如下:似定义如下:进一步使用模糊邻域下近似与参保人集合的基数来定义模糊邻域下近似比...

【专利技术属性】
技术研发人员:袁源袁钟刘昶
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1