基于无监督机器学习和集成学习的医疗异常违规大数据风险预警方法技术

技术编号：40795982 阅读：9 留言：0更新日期：2024-03-28 19:23

本发明专利技术涉及医疗异常违规行为监管技术领域，尤其为通过设计基于无监督机器学习和集成学习的医疗异常违规大数据风险预警方法，其步骤具体如下：步骤1，数据获取和选择；步骤2，数据清洗；步骤3，特征建构；步骤4，特征选择；步骤5，建模分析；步骤6，模型调整；步骤7，风控预警与分析报告，本发明专利技术通过对高维复杂数据效果有限、识别准确率低、新模式挖掘困难等痛点，基于无监督学习、深度学习和集成学习的方法，通过多种建模手段的融合，可以处理海量复杂数据并发掘出新的违规模式，提升监管机构对不同监管对象行为认知的全面性，提高打击医疗异常违规的效率和准确性，及时发现违规行为，大大提高基金运行效率和抗风险能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及医疗异常违规行为监管，具体为基于无监督机器学习和集成学习的医疗异常违规大数据风险预警方法。

技术介绍

1、传统的人工审核方式成本高、效率低，且在收集所需数据时遭遇了多方人为阻力。因此，如何通过全新的智能化信息系统手段打击医疗异常违规行为、守护医疗基金尤为重要。

2、传统的反医疗违规监测方法主要基于规则过滤、统计计算和有监督机器学习方法，受制于规则表达的有限性、统计数据的扁平性、有监督机器学习的样本失衡与缺失，对日益增多的违规模式、违规实事件的时空不连续性、结构化数据膨胀的冗余等困难处理日渐疲软。通过算法导出的各项特征定义过于复杂导致无法解释，难以从数据库中发掘有效的违规模式，往往依赖于人工复核，且存在以下几个问题：

3、(1)单一算法模型的过拟合：

4、本专利技术所述过拟合不是传统意义上因为训练集过小或模型复杂度过高引起的过拟合，而是指使用不同的特征工程策略所构造的特征输入同各单一算法模型会使得该模型收敛到不同的局部最优的情况。现有的多数反违规算法实践往往只包含对样本数据通过集成学习方法改造，欠缺考虑多样的特征工程与单一算法模型配对，存在较高的整个系统被不良的特征工程策略误导的风险，直接导致算法模型准确率的降低；

5、(2)传统机器学习模型的欠拟合：

6、传统机器学习的复杂度有限，对高维数据的拟合与划分能力欠佳，因此在实践中往往前置降维算法来保证运算效率，但降维方法存在减低可解释性问题且不能发掘新模式，进一步偏离了医疗异常违规“高精度”、“新模式”的建模分析需求；

7、(3)非transformer类模型的序列处理能力不足：

8、基于transformer的深度学习算法模型在挖掘序列中潜在模式方面具有极佳表现，而医疗违规的两大主体——参保人和医院，无论其作案方式如何，相应的交易记录仍保留在医疗数据库中，虽然呈现分散作案(日期不连续)的情况，但仍是时空序列数据。而现有反违规算法往往采用基于树的集成学习方法，复杂度较transformer类模型偏低，且并未按照序列数据的分析思路进行建模分析，难以实现高精度的建模预测；

9、(4)算法的有效性和可解释性难以平衡：

10、无论是传统机器学习模型还是深度学习模型，都需要在准确性和可解释性之间进行平衡，由于医疗交易数据是结构化数据，其各字段含义都是人赋予的，但在计算中各字段、特征的含义未必具有实际意义，即便模型在训练完毕后预测能力极佳，但若无法导出易于解释的各特征，则对医疗异常违规的指导和执法帮助甚小。现有的医疗异常违规算法多只顾及准确性而忽略可解释性，存在一些基于树结构的集成学习方法可以导出部分特征改造后的表达式，但无法囊括所有参与计算的特征，这是此类方法的局限性所在；

11、(5)特征工程对反违规经验的强依赖：

12、特征工程是指对数据各字段(对结构化数据而言)预先进行一定的变换、计算等处理，一方面使其适应算法模型的输入要求，另一方面结合人工经验使处理后的数据更易反映出业务特点，极大程度上决定了算法模型性能的上限。往往为了模型取得更好的性能，需要从业多年、经验丰富的专家指导建模分析人员，这一过程耗费大量时间。此问题本质上是算法模型的复杂度相较于数据本身的复杂度偏低，且算法模型本身的计算过程难以避开噪声和错误方向对计算的误导，这对于智能化审核欲监管系统来说是不可接受的。

13、因此，为提升医疗异常违规的智能化审核监管水平，本方案提出一种基于无监督机器学习、集成学习和深度学习的反医疗违规监督学习方法，建立医疗异常违规行为的智能化监管体系。

技术实现思路

1、本专利技术的目的在于提供基于无监督机器学习和集成学习的医疗异常违规大数据风险预警方法，以解决上述
技术介绍
中提出的问题。

2、为实现上述目的，本专利技术提供如下技术方案：

3、基于无监督机器学习和集成学习的医疗异常违规大数据风险预警方法，其步骤具体如下：

4、步骤1，数据获取和选择：从医疗数据库、医疗监督检查所、电信运营商数据库、监管部门系统数据库中分别抽取参保人、医院、药店、位置、涉嫌医疗违规被处罚相关信息；

5、步骤2，数据清洗：结构化数据的数据清洗和非结构化数据，其中结构化数据的数据清洗包括缺失值处理、异常值处理、数据格式转换、数据去重、数据类型校验、数据标准化、数据验证与纠错、数据采样和数据合并与拆分环节；

6、步骤3，特征建构：对大规模数据进行识别、选择和改造使其潜在规律易于被算法发掘并降低噪声和异常数据对模型稳定性的影响，生成各监管对象的指标库和标签库；

7、步骤4，特征选择：对经过特征工程后的特征进行筛选；

8、步骤5，建模分析：构建基于无监督方法的融合模型，以深度学习的表征能力强化各项特征表现；

9、步骤6，模型调整：根据实际模型运行效果调整步骤1至6的部分内容；

10、步骤7，风控预警与分析报告：使用合适的阈值和分段预警方式实现对风险的实时监控，并设置周期性数据分析报告和专题分析报告。

11、作为本方法优选的方案，所述相关信息按不同对象划分收集以下数据：

12、(1)参保人：参保人表和账户表；

13、(2)药店：药店基本信息表、药店购药表、药店进销存库、药店交易记录库和药店配药明细库；

14、(3)医院：门急诊结算库、住院结算库、门急诊支付减免转补结算交易记录、执业医师信息、中药饮片记录表、医院交易记录库和医院明细项目细分库；

15、(4)运营商：位置详单、用户居住地表、用户工作地表、基站-街道表、基站-栅格表、点-基站表、栅格-坐标表、位置信令表和通话日表；

16、(5)监管部门：居民基本信息库、居民户籍库和行政处罚表；

17、(6)其他数据：医疗服务项目表、药品表、耗材表、医院表、科室表、基本服务设施表、icd10表和icd9表。

18、以上数据库和表单中存在大量对建模分析贡献小或仅作为其他业务标志的字段，将这些字段删除，进一步地，所有涉及时间段的数据库和表单都采用近三年的数据，不考虑新生儿、放疗、化疗等特殊病患群体，通过明细项目表剔除，对于门诊共济医疗交易记录和参保人，利用监管部门数据予以标注。

19、作为本方法优选的方案，所述缺失值处理，即为处理数据中的缺失值，其中处理数据中的缺失值包括识别缺失值、删除缺失值和填充缺失值，优先从业务人员处核对补充，具体处理方式具体如下:

20、缺失值比例为20％以下，字段类型为连续型，缺失值处理方法为使用偏态改善后的均值或中位数填补；

21、缺失值比例为20％以下，字段类型为分类型，缺失值处理方法为单独算一类；

22、缺失值比例为20％至80％，字段类型为连续型，缺失值处理方法为使用偏态改善后的均值或中位数填补；

23、缺失值比例为20％至80％，字段类型为类型，本文档来自技高网...

【技术保护点】

1.基于无监督机器学习和集成学习的医疗异常违规大数据风险预警方法，其步骤具体如下：

2.根据权利要求1所述的基于无监督机器学习和集成学习的医疗异常违规大数据风险预警方法，其特征在于：所述相关信息按不同对象划分收集以下数据：

3.根据权利要求1所述的基于无监督机器学习和集成学习的医疗异常违规大数据风险预警方法，其特征在于：所述缺失值处理，即为处理数据中的缺失值，其中处理数据中的缺失值包括识别缺失值、删除缺失值和填充缺失值，优先从业务人员处核对补充，具体处理方式具体如下:

4.根据权利要求1所述的基于无监督机器学习和集成学习的医疗异常违规大数据风险预警方法，其特征在于：所述特征建构包括基于技术的建构方法和基于业务的建构方法；

5.根据权利要求1所述的基于无监督机器学习和集成学习的医疗异常违规大数据风险预警方法，其特征在于：所述特征选择包括特征选择方法库和特征选择流程；

6.根据权利要求1所述的基于无监督机器学习和集成学习的医疗异常违规大数据风险预警方法，其特征在于：所述建模分析包括分类任务、回归任务、序列推断任务、模型的解释

7.根据权利要求1所述的基于无监督机器学习和集成学习的医疗异常违规大数据风险预警方法，其特征在于：所述模型调整包括预训练模型调整方法和核心模型调整方法；

8.根据权利要求1所述的基于无监督机器学习和集成学习的医疗异常违规大数据风险预警方法，其特征在于：所述风控预警与分析报告包括风控预警体系、数据分析报告

...

【技术特征摘要】

1.基于无监督机器学习和集成学习的医疗异常违规大数据风险预警方法，其步骤具体如下：

5.根...

【专利技术属性】
技术研发人员：张正卿，赵万鹏，范少良，车惯红，陆圣岳，李海滨，张宽，高一炀，孙思晗，
申请(专利权)人：联通上海产业互联网有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人