当前位置: 首页 > 专利查询>重庆大学专利>正文

一种医保欺诈行为检测方法、系统、存储介质技术方案

技术编号:38595940 阅读:15 留言:0更新日期:2023-08-26 23:32
本发明专利技术公开一种医保欺诈行为检测方法、系统、存储介质,具体包括以下步骤:A:采集用户的医保就医数据;B:构建医保欺诈行为检测模型并进行训练,采用训练完成的医保欺诈行为检测模型将用户的医保就医数据划分为文本、OCR文本、图像;C:分别对文本、OCR文本、图像进行特征提取得到文本嵌入向量、OCR文本嵌入向量、图像中感兴趣区域的嵌入向量;D:将文本嵌入向量、OCR文本嵌入向量、图像中感兴趣区域的嵌入向量中进行拼接,得到多模态的序列型特征嵌入;E:使用多层Transformer编码器对多模态的序列型特征嵌入进行深度编码,并进行分类,得到预测的欺诈检测结果。欺诈检测结果。欺诈检测结果。

【技术实现步骤摘要】
一种医保欺诈行为检测方法、系统、存储介质


[0001]本专利技术涉及大数据智能
,特别涉及一种医保欺诈行为检测方法、系统、存储介质。

技术介绍

[0002]国家医疗保险包括城镇职工基本医疗保险与城乡居民基本医疗保险两类,是最基本医疗保障制度,具有广泛的社会普及型与共济性,能够保障广大人民群众的生命健康,消除因疾病引起的社会不安定因素,且为调整社会关系和社会矛盾的重要社会机制。但近年来,医保欺诈行为频发,导致医保基金的浪费和损失,严重影响医疗服务的公平性和可持续性,损害参保人员的合法权益。据朴茨茅斯大学反欺诈研究中心和英国PKF会计师事务所统计,每年,全球卫生保健支出的7.29%损失于欺诈行为。因此,检测并消除医保欺诈行为的对于保障医保基金的安全、维护医疗秩序、促进公平公正、提高医疗服务质量、保障参保人员的合法权益等方面都有着重要的意义。
[0003]医保欺诈行为的形式包括但不限于以下形式:诱导、骗取参保人员就医;无正当理由留存、盗刷、冒用参保人员社保卡;人证不符、挂床住院、捏造诊断、虚构医疗服务;伪造医疗文书或票据;串换药品、诊疗项目、耗材、物品等;分解收费、超标准收费、重复收费、套用项目收费等。我国人口庞大,就医人员较多,且就医过程涉及到的流程、项目、票据等数量与类别繁多,而医保欺诈行为又形式多样,这些客观因素对医疗从业者以及监管人员准确识别出欺诈行为带来极大挑战。因此,根据就医过程产出的各类数据,设计自动化的医保欺诈行为检测方法,准确检测出医保欺诈行为,对于保障医保制度的正常运行、缓解从业人员的监管压力,具有重要意义。

技术实现思路

[0004]针对现有技术对医保欺诈行为识别率较低的问题,本专利技术提出一种医保欺诈行为检测方法、系统、存储介质,通过构建医保欺诈行为检测模型,将就医数据划分为文本、OCR文本和图像,实现多模态数据融合,建立就医过程中多种数据之间的关联,从而提高医保欺诈行为识别的准确率。
[0005]为了实现上述目的,本专利技术提供以下技术方案:
[0006]一种医保欺诈行为检测方法,具体包括以下步骤:
[0007]A:采集用户的医保就医数据;
[0008]B:构建医保欺诈行为检测模型并进行训练,采用训练完成的医保欺诈行为检测模型将用户的医保就医数据划分为文本、OCR文本、图像;
[0009]C:分别对文本、OCR文本、图像进行特征提取得到文本嵌入向量、OCR文本嵌入向量、图像中感兴趣区域的嵌入向量;
[0010]D:将文本嵌入向量、OCR文本嵌入向量、图像中感兴趣区域的嵌入向量中进行拼接,得到多模态的序列型特征嵌入;
[0011]E:使用多层Transformer编码器对多模态的序列型特征嵌入进行深度编码,并进行分类,得到预测的欺诈检测结果。
[0012]优选地,所述B中,构建医保欺诈行为检测模型包括数据划分单元、特征提取单元、拼接单元和多层Transformer编码器;
[0013]数据划分单元,用于将医保欺诈行为检测数据集划分为文本、OCR文本和图像;
[0014]特征提取单元,用于对文本、OCR文本和图像分别进行特征提取得到文本嵌入向量、OCR文本嵌入向量、图像中感兴趣区域的嵌入向量;
[0015]拼接单元,用于分别在文本嵌入向量、OCR文本嵌入向量、图像中感兴趣区域的嵌入向量加入对应的类型嵌入与位置嵌入进行更新,再将更新后的三种嵌入向量进行拼接,从而得到多模态的序列型特征嵌入;
[0016]多层Transformer编码器,用于对多模态的序列型特征嵌入进行深度编码,并进行分类,得到预测的欺诈检测结果。
[0017]优选地,所述B中,医保欺诈行为检测模型的训练方法包括:
[0018]S1:采集现有医保欺诈行为案例的第一就医数据,以及正常的第二就医数据,构造医保欺诈行为检测数据集;
[0019]S2:构建医保欺诈行为检测模型,将医保欺诈行为检测数据集划分为文本、OCR文本、图像,再分别对文本、OCR文本、图像进行特征提取,从而构建多模态的序列型特征嵌入;
[0020]S3:使用多层Transformer编码器对S2中的多模态的序列型特征嵌入进行深度编码,并进行分类,得到预测的欺诈检测结果;
[0021]S4:根据预测结果和真实标签对医保欺诈行为检测模型进行更新。
[0022]优选地,所述S2具体包括:
[0023]S2

1:首先,根据词典将文本表示为独热编码形式的文本序列,即T=[t1,t2,

,t
n
],其中n为模型可处理文本序列的最大长度,T表示文本序列,t
n
表示第n个单词,然后将文本序列映射为文本嵌入向量,由以下公式表示:
[0024][0025]公式(1)中,R
T
表示文本序列T对应的文本嵌入向量序列;w
n
表示t
n
对应的文本嵌入向量,w
n
=W
T
t
n
;W
T
∈R
H
×
|
V
|表示可学习的嵌入矩阵,H表示文本嵌入向量的长度,|V|表示词典的长度;
[0026]S2

2:使用OCR技术识别图像中的文本,得到OCR文本序列U=[u1,u2,

,u
g
],其中g为模型可处理OCR文本序列的最大长度,u
g
表示第g个单词;再使用词嵌入方式进行嵌入,由以下公式表示:
[0027][0028]公式(2)中,R
V
表示OCR文本序列U对应的OCR文本嵌入向量序列;v
g
表示u
g
对应的OCR文本嵌入向量,v
g
=W
T
u
g

[0029]S2

3:使用Faster

RCNN目标检测网络检测图像中的感兴趣区域,并进一步使用ResNet卷积神经网络获取感兴趣区域的嵌入表示,由以下公式表示:
[0030][0031]公式(3)中,E
r
表示Faster

RCNN目标检测网络从原图像上裁剪得到的第r个感兴趣区域,v表示被检测的图像;表示ResNet卷积神经网络中最后一个池化层的输出;R
E
表示图像数据中感兴趣区域对应的嵌入向量序列,即区域视觉特征;e
r
∈R
H
表示第r个感兴趣区域的嵌入向量,W
E
∈R
2048
×
H
是一个可学习的参数矩阵,H表示嵌入向量的长度;
[0032]S2

4:分别在文本嵌入向量、OCR文本嵌入向量、图像数据中感兴趣区域的嵌入向量中加入对应的类型嵌入与位置嵌入进行更本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医保欺诈行为检测方法,其特征在于,具体包括以下步骤:A:采集用户的医保就医数据;B:构建医保欺诈行为检测模型并进行训练,采用训练完成的医保欺诈行为检测模型将用户的医保就医数据划分为文本、OCR文本、图像;C:分别对文本、OCR文本、图像进行特征提取得到文本嵌入向量、OCR文本嵌入向量、图像中感兴趣区域的嵌入向量;D:将文本嵌入向量、OCR文本嵌入向量、图像中感兴趣区域的嵌入向量中进行拼接,得到多模态的序列型特征嵌入;E:使用多层Transformer编码器对多模态的序列型特征嵌入进行深度编码,并进行分类,得到预测的欺诈检测结果。2.如权利要求1所述的一种医保欺诈行为检测方法,其特征在于,所述B中,构建医保欺诈行为检测模型包括数据划分单元、特征提取单元、拼接单元和多层Transformer编码器;数据划分单元,用于将医保欺诈行为检测数据集划分为文本、OCR文本和图像;特征提取单元,用于对文本、OCR文本和图像分别进行特征提取得到文本嵌入向量、OCR文本嵌入向量、图像中感兴趣区域的嵌入向量;拼接单元,用于分别在文本嵌入向量、OCR文本嵌入向量、图像中感兴趣区域的嵌入向量加入对应的类型嵌入与位置嵌入进行更新,再将更新后的三种嵌入向量进行拼接,从而得到多模态的序列型特征嵌入;多层Transformer编码器,用于对多模态的序列型特征嵌入进行深度编码,并进行分类,得到预测的欺诈检测结果。3.如权利要求2所述的一种医保欺诈行为检测方法,其特征在于,所述B中,医保欺诈行为检测模型的训练方法包括:S1:采集现有医保欺诈行为案例的第一就医数据,以及正常的第二就医数据,构造医保欺诈行为检测数据集;S2:构建医保欺诈行为检测模型,将医保欺诈行为检测数据集划分为文本、OCR文本、图像,再分别对文本、OCR文本、图像进行特征提取,从而构建多模态的序列型特征嵌入;S3:使用多层Transformer编码器对S2中的多模态的序列型特征嵌入进行深度编码,并进行分类,得到预测的欺诈检测结果;S4:根据预测结果和真实标签对医保欺诈行为检测模型进行更新。4.如权利要求3所述的一种医保欺诈行为检测方法,其特征在于,所述S2具体包括:S2

1:首先,根据词典将文本表示为独热编码形式的文本序列,即T=[t1,t2,

,t
n
],其中n为模型可处理文本序列的最大长度,T表示文本序列,t
n
表示第n个单词,然后将文本序列映射为文本嵌入向量,由以下公式表示:公式(1)中,R
T
表示文本序列T对应的文本嵌入向量序列;w
n
表示t
n
对应的文本嵌入向量,w
n
=W
T
t
n
;W
T
∈R
H
×
|V|
表示可学习的嵌入矩阵,H表示文本嵌入向量的长度,|V|表示词典的长度;S2

2:使用OCR技术识别图像中的文本,得到OCR文本序列U=[u1,u2,

,u
g
],其中g为模
型可处理OCR文本序列的最大长度,u
g
表示第g个单词;再使用词嵌入方式进行嵌入,由以下公式表示:公式(2)中,R
V
表示OCR文本序列U对应的OCR文本嵌入向量序列;v
g
表示u
g
对应的OCR文本嵌入向量,v
g
=W
T
u
g
;S2

3:使用Faster

RCNN目标检测网络检测图像中的感兴趣区域,并进一步使用ResNet卷积神经网络获取感兴趣区域的嵌入表示,由以下公式表示:公式(3)中,E
r
表示Faster

RCNN目标检测网络从原图像上裁剪得到的第r个感兴趣区域,v表示被检测的图像;表示ResNet卷积神经网络中最后一个池化层的输出;R
E
表示图像数据中感兴趣区域对应的嵌入向量序列,即区域视觉特征;e
r
∈R
H
表示第r个感兴趣区域的嵌入向量,W
E
∈R
2048
×
H
是一个可学习的参数矩阵,H表示嵌入向量的长度;S2

4:分别在文本嵌入向量、OCR文本嵌入向量、图像数据中感兴趣区域的嵌入向量中加入对应的类型嵌入与位置嵌入进行更新,将更新后的三种嵌入向量再进行拼接,从而得到多模态的序列型特征嵌入:到多模态的序列型特征嵌入:到多模态的序列型特征嵌入:到多模态的序列型特征嵌入:公式(4)中,分别表示更新后的文本嵌入向量序列、更新后的OCR文本嵌入向量序列、更新后的图像感兴趣区域的嵌入向量序列;w
type
、v
type
、e
type
分别表示文本的类...

【专利技术属性】
技术研发人员:魏然罗成冯永王彬
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1