一种基于异常检测算法的医保控费方法和系统技术方案

技术编号:28322667 阅读:14 留言:0更新日期:2021-05-04 13:03
本发明专利技术涉及一种基于异常检测算法的医保控费方法和系统,该方法包括步骤:对病历数据文本进行处理,得到实体的向量映射;根据所述实体的向量映射,对病例数据中所有的主诊断进行内涵一致性聚合,将所有病历数据根据主诊断分为N组(N>1);对所述分组病例进行实体向量筛选,在每组病例数据上运行LOF算法,得到异常医疗行为集合。本发明专利技术利用大数据的思想,通过异常检测技术,来发现在医疗过程中的异常医疗行为,进而可以对该不合理行为进行医保控费。

【技术实现步骤摘要】
一种基于异常检测算法的医保控费方法和系统
本专利技术涉及互联网服务
,尤其涉及一种基于异常检测算法的医保控费方法和系统。
技术介绍
随着国家医保的大范围实施,病人可使用国家医保看病住院,实现看病费用的报销。但不可否认的是,目前社会上存在相当数量的医保欺诈行为,而现有技术对于医保欺诈缺乏有效的科学鉴别手段,严重影响了医保基金的收支平衡,侵害了广大参保人的利益、乃至公众利益,因此,医保的风险审核是医保报销中必不可少的一环。其中,药品费用占整个医疗费用很高的比例,因此,合理用药是医保控费的重要环节。尤其对病人的诊断信息和用药信息进行审核,也是必不可少的一步。现有的技术根据医保局发布的《药品目录》和《医疗服务目录》中的限制性条件,结合医保局的具体政策,制定了一系列的控费规则。如:药品“小儿碳酸钙D3”只能在诊断有“小儿佝偻病”下的情况使用,其他情况不予付费,然后将这些规则以正则表达式和词典的方式实现在系统中。但是医生在实际的医疗过程中,使用的诊断名称、药品名称、治疗服务名称是多样化的,不可能在表达形式上完全和医保局发布的标准名称一致。这就造成了以正则表达式和词典等形式匹配的方案失效,进而发现不了异常情况,控费失败。同时,医保局发布的控费规则是有限的、固定的(在一段时间内),但是骗保的不合理医疗行为是多样的、变化的。导致了医保局的控费规则只能是规范有限的不合理医疗行为,不可能对全部的不合理医疗行为进行把控。
技术实现思路
有鉴于此,本专利技术提供了一种基于异常检测算法的医保控费方法和系统,利用了大数据的思想,并通过异常检测技术,来发现在医疗过程中的不合理的医疗行为,进而可以对该不合理行为进行医保控费。本专利技术解决上述技术问题的技术方案如下:一方面,本专利技术提供了一种基于异常检测算法的医保控费方法,该方法包括:S1.对病历数据文本进行处理,得到实体的向量映射;S2.根据所述实体的向量映射,对病例数据中所有的主诊断进行内涵一致性聚合,将所有病历数据根据主诊断分为N组(N>1);S3.对所述分组病例进行实体向量筛选,在每组病例数据上运行LOF算法,得到异常医疗行为集合。一方面,本专利技术还提供了一种基于异常检测算法的医保控费系统,该方法包括:数据处理模块,对病历数据文本进行处理,得到实体的向量映射;数据聚合模块,根据所述实体的向量映射,对病例数据中所有的主诊断进行内涵一致性聚合,将所有病历数据根据主诊断分为N组(N>1);数据筛选模块,对所述分组病例进行实体向量筛选,在每组病例数据上运行LOF算法,得到异常医疗行为集合。本专利技术的有益效果是:通过word2vec的算法特性对大量病例数据进行处理,将实体名称向量化后,可以让内涵一致的实体在空间上聚集在一起。从而解决了病例的文本在形式上不一致但是内涵上一致的问题。有效地解决了现有技术只能涵盖有限情况下的不合理医疗行为规范,进而达到更有效地进行医保控费的目的。附图说明图1为本专利技术实施例提供的基于异常检测算法的医保控费方法的流程示意图;图2为本专利技术实施例提供的基于异常检测算法的医保控费方法在进行实体的向量映射时的流程示意图;图3为本专利技术实施例提供的基于异常检测算法的医保控费方法在进行内涵一致性聚合时的流程示意图;图4为本专利技术实施例提供的基于异常检测算法的医保控费方法在进行实体向量筛选时的流程示意图;图5为本专利技术实施例提供的基于异常检测算法的医保控费系统的结构示意图;图6为本专利技术实施例提供的安装了应用程序的系统的运行环境的示意图。具体实施方式以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。以下结合附图,详细说明本说明书各实施例提供的技术方案。实施例一如附图1所示,本专利技术提供了一种基于异常检测算法的医保控费方法,包括如下步骤:S1.对病历数据文本进行处理,得到实体的向量映射;S2.根据所述实体的向量映射,对病例数据中所有的主诊断进行内涵一致性聚合,将所有病历数据根据主诊断分为N组(N>1);S3.对所述分组病例进行实体向量筛选,在每组病例数据上运行LOF算法,得到异常医疗行为集合。进一步,所述步骤S1包括:S101.获取大规模的电子病历文本数据;优选的,所述电子病例文本数据在1千万份以上;S102.对所述电子病历文本运行医疗NER算法,将病历文本中的医疗实体抽取出来,形成数据集E;具体的,命名实体识别(NamedEntityRecognition,简称NER)是指识别文本中特定的实体,例如:人名、地名等。在电子病历领域,旨在自动识别和分类病例中医学实体,例如治疗手段、疾病等,包括但不限于诸如解剖术语、医疗条件、医疗程序、医务人员名称、提供商名称、诊断和药物名称等等。所述数据集E的数据结构为:病例a:实体1,实体2,实体3…;病例b:实体1,实体2,实体3…;…病例n:实体1,实体2,实体3…。S103.在数据集E上运行Word2Vec算法,将所有的医疗实体映射到同一个高维空间内,得到实例化的向量结果数据集S。具体的,Word2Vec是一种深度学习的词嵌入模型,运用该算法可以保证内涵相似的医疗实体在空间上都聚合在一起。所述实例化的向量结果数据集S的数据结构为:(实体1,向量1),(实体2,向量2),…(实体n,向量n)。进一步,所述步骤S2包括:S201.统计所有病历中主诊断名称不同的病历份数,得到数据集L,然后将数据集L按照病历份数从大到小排序;具体的,所述数据集L的数据结构为:(诊断名称1,病历数1,未访问),(诊断名称2,病历数2,未访问),(诊断名称3,病历数3,未访问),…(诊断名称n,病历数3,未访问)。S202.创立一个新的空表NL;S203.从头遍历数据集L,选取L中的第一个未访问过的数据项D,将数据项D标记为已访问;S204.在所述实例化的向量结果S中找出与数据项D的欧式距离小于预设阈值的所有点PS,将点PS在数据集L上标记为已访问;这些点PS都是跟该数据项D在表达形式不一致但是内涵一致的;S205.将点PS的实体名称和数据项D的实体名称放在一个列表中,得到诊断一致的名称列表;并将这些点PS的个数和数据项D的个数相加得到总个数;将名称列表和总个数作为一个新的数据项T,添加到表NL中;具体的,所述数据项T的数据结构为:【实体1a,实体1b,…】,总个数…【实体na,实体nb,…】,总个数。S206.重复步骤S203-S205直到数据集L的所有项都标记为已访问。进一步,所述步骤S3包括:S301.遍历所述表NL的所有项,删除其总个数小于1000本文档来自技高网...

【技术保护点】
1.一种基于异常检测算法的医保控费方法,其特征在于,包括如下步骤:/nS1.对病历数据文本进行处理,得到实体的向量映射;/nS2.根据所述实体的向量映射,对病例数据中所有的主诊断进行内涵一致性聚合,将所有病历数据根据主诊断分为N组(N>1);/nS3.对所述分组病例进行实体向量筛选,在每组病例数据上运行LOF算法,得到异常医疗行为集合。/n

【技术特征摘要】
1.一种基于异常检测算法的医保控费方法,其特征在于,包括如下步骤:
S1.对病历数据文本进行处理,得到实体的向量映射;
S2.根据所述实体的向量映射,对病例数据中所有的主诊断进行内涵一致性聚合,将所有病历数据根据主诊断分为N组(N>1);
S3.对所述分组病例进行实体向量筛选,在每组病例数据上运行LOF算法,得到异常医疗行为集合。


2.根据权利要求1所述的方法,其特征在于,所述步骤S1包括:
S101.获取大规模的电子病历文本数据;
S102.对所述电子病历文本运行医疗NER算法,将病历文本中的医疗实体抽取出来,形成数据集E;
S103.在数据集E上运行Word2Vec算法,将所有的医疗实体映射到同一个高维空间内,得到实例化的向量结果数据集S。


3.根据权利要求2所述的方法,其特征在于,所述步骤S2包括:
S201.统计所有病历中主诊断名称不同的病历份数,得到数据集L,然后将数据集L按照病历份数从大到小排序;
S202.创立一个新的空表NL;
S203.从头遍历数据集L,选取L中的第一个未访问过的数据项D,将数据项D标记为已访问;
S204.在所述实例化的向量结果S中找出与数据项D的欧式距离小于预设阈值的所有点PS,将点PS在数据集L上标记为已访问;
S205.将点PS的实体名称和数据项D的实体名称放在一个列表中,得到诊断一致的名称列表;并将这些点PS的个数和数据项D的个数相加得到总个数;将名称列表和总个数作为一个新的数据项T,添加到表NL中;
S206.重复步骤S203-S205直到数据集L的所有项都标记为已访问。


4.根据权利要求3所述的方法,其特征在于,所述步骤S3包括:
S301.遍历所述表NL的所有项,删除其总个数小于1000的项,记为表NLD;
S302.创立一个新表RL,令指针指向NLD表头;
S303.从指针位置选出NLD中的数据项T,以该数据项T所对应的诊断名称列表为基础,抽取该列表中所有诊断名称所对应的病历集合G;
S304.根据所述病例集合G对所述数据集E进行过滤,只取G中存在的病历,得到结果数据集EG;
S305.根据数据集EG对数据集S进行过滤,只取数据集EG中存在的实体向量,得到结果数据集SG;
S306.在数据集SG上运行密度异常检测算法LOF,得到每个实体的LOF得分;将LOF得分大于预设阈值的实体标记为异常点,得到异常医疗行为列表;
S307.将所述诊断名称列表和异常医疗行为列表作为一个数据项,添加到表RL中;
S308.将指向表NLD的指针向后移一位;
S309.重复执行步骤S303-S308,直到指针超过NLD表尾;得到包含异常医疗行为列表的表RL。

【专利技术属性】
技术研发人员:王晔晗刘升平梁家恩
申请(专利权)人:云知声智能科技股份有限公司厦门云知芯智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1