当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于医保大数据测算疾病患病率的方法技术

技术编号:19124109 阅读:79 留言:0更新日期:2018-10-10 06:11
本发明专利技术公布了一种基于医保大数据测算疾病患病率的方法,将特定时间内总人口中的所有患有某病的新旧病例数目作为计算患病率的分子,将特定时间内的总人口作为计算患病率的分母;通过汇总每月医保数据的多个关键参数,包括:每月参保个体总数、每月新增参保个体数、每月就诊记录总数、每月就诊记录诊断缺失总数;获得患病率计算的分子与分母信息,进而计算得到患病率。本发明专利技术方法以医保大数据为基础,简便快速有效,可以替代耗费人财物的现有流行病学人群调查,转变以面板数据为基础的患病率计算策略,优化数据存储、运算的执行效率,降低隐私泄露风险和数据共享门槛,促进医保大数据的转化应用。

【技术实现步骤摘要】
一种基于医保大数据测算疾病患病率的方法
本专利技术涉及数据处理技术,尤其涉及一种基于医保大数据测算疾病患病率(Prevalence)的方法,具体针对汇总数据格式下高效计数患病率对应分子、分母进行统计运算。
技术介绍
医保数据(Claimsdata),是医保业务过程中获得的数据,由于无需抽样调查,天然覆盖较大规模的人群,并较为完整真实的记录该人群在一定时间范围内的就医信息,被越来越多的用于疾病的患病率研究。常规的流行病学研究中,计算患病率需要明确分母的人口规模,计数某一时间内对应的病例数量。但对于现在积累的海量医保数据,无论数据存储的期别、格式和体量,还是数据指标的跨度、缺失和个体脱保等,都会导致直接实施上述思路遇到一些问题,从而制约医保大数据的实际应用。美国的Medicaid、Medicare联合办公中心总结开发了适用于两者数据库的常见慢性病症的患者界定规则,但同时明确指出目标患者的界定规则因数据库而异、因病而异。美国Jensen等对影响分母的界定参数进行了探讨,提出就诊频率不高的病症,最短观察时间设定较短会导致患病率低估,设定较长又会导致高估,具体需要因病而异。上述探索均集中在国外,而我们国家医保报销模式决定了医保数据的实际存储以月为单位,患者参保信息与就诊信息之间以就诊号关联。国外研究都基于个体原始数据,数据量与运算资源性能相对匹配,而我国医保人口超过13亿,多人次多年份的海量数据情境下,传统的构建个体面板数据的运算策略将会导致数据稀疏、信息冗余、存储和运算困难等问题。
技术实现思路
本专利技术的目的是提供一种基于医保大数据测算疾病患病率的新方法,基于优化数据中间存储格式,通过汇总每月医保数据的多个关键参数,包括:每月参保个体总数、每月新增参保个体数、每月就诊记录总数、每月就诊记录诊断缺失总数,再推导患病率计算所需的分子与分母信息,进而计算得到患病率。本专利技术可测算的疾病要求不能彻底治愈,一旦诊断,终身罹患。本专利技术的原理是:基于人月的概念,计数每月参保个体总数、每月新增参保个体数、每月就诊记录总数、每月就诊记录诊断缺失总数,通过目标疾病定义抽提目标患者,并推导诊断随机缺失情境下的“隐形患者”,再根据患病率公式进行推导,计算得到患病率。本专利技术方法可测算的疾病包括多发性骨髓瘤、浆细胞白血病、浆细胞病、男性乳腺癌、黑色素瘤等。本专利技术提供的技术方案是:一种基于医保大数据测算疾病患病率的方法,通过汇总每月医保数据的多个关键参数(包括:每月参保个体总数、每月新增参保个体数、每月就诊记录总数、每月就诊记录诊断缺失总数),推导患病率计算所需的分子与分母信息,进而计算得到患病率;患病率计算的分子指特定时间内总人口中的所有患有某病的新旧病例,分母即特定时间内的总人口;包括如下步骤:A1.确定数据库范围(如时间跨度、地域分布、门诊/住院);A2.数据库的基本清洗和目标疾病的定义;A3.分母信息的汇总具体分为三组:参保但从未报销的个体、参保且有报销记录但未出现目标诊断的个体和参保有报销记录且出现目标诊断的个体。根据每位观察对象在每个月的参保状态、纳入参保人次,剔除未参保人次。A4.分子信息的汇总;明确目标疾病的定义后,进行对应的分子信息抽提,具体分为两组:直接观测到的患者和需填补测算的患者。后者测算基于就诊信息的诊断缺失与是否罹患目标疾病的关联不存在统计学意义。对之前已经判断为目标疾病的个体,则直接填补该个体为患病状态,即为出现目标诊断的个体。A5.分子患者的基本特征核查与统一,如年龄、性别、民族、户籍等A6.患病率的计算,将上述汇总的分子信息与分母信息求商,计算患病率。本专利技术的有益效果是:本专利技术提供一种基于医保大数据测算疾病患病率的新方法,针对汇总格式数据,高效地计数得到患病率计算对应的分子和分母,进而计算得到患病率。通过本专利技术所提供的以医保大数据为基础的患病率测算方法,简便快速有效,可以替代耗费人财物的现有的传统流行病学人群调查,同时转变以面板数据为基础的患病率计算策略,优化数据存储、运算的执行效率,降低隐私泄露风险和数据共享门槛,促进医保大数据的转化应用,为切实填补我国罕见病的患病率资料空白提供一种简便快速的方法。附图说明图1是本专利技术提供的计算患病率的方法的流程框图。图2是本专利技术具体实施例提供的患病率分子的基本特征核查与统一的流程示意图。具体实施方式下面结合附图,通过实施例进一步描述本专利技术,但不以任何方式限制本专利技术的范围。本专利技术提供一种基于医保大数据测算疾病患病率的新方法,基于优化数据中间存储格式,通过汇总每月医保数据的多个关键参数,推导患病率计算所需的分子与分母信息,进而计算得到患病率。患病率计算的分子指特定时间内总人口中的所有患有某病的新旧病例,分母即特定时间内的总人口。本专利技术的具体实施方式如下:A.患病率对应分母的计算A1.确定数据库范围(如时间跨度、地域分布、门诊/住院);A2.数据库的基本清洗和目标疾病的定义;数据库的基本清洗包括以下基本步骤:(1)数据库中变量的完整性和逻辑性核查;(2)数据库中文本内容的编码标准化和自然语言处理;(3)数据库中国际疾病分类(InternationalClassificationofDiseases,ICD)的版本确定和统一。本专利技术中,目标疾病的定义以医保数据库中出现对应疾病的名称或ICD编码为准,具体需要充分考虑文本和ICD编码的多种表达形式,构建尽量全面的字典库。A3.分母信息的汇总;患病率的分母具体分为三组第一组:参保但从未报销的个体该部分患者从未因病就诊,只有参保记录,无报销记录,在患病率/发病率计算时仅用作分母。具体需要统计观察时间内,每个观察对象在每个月的参保状态(1=参保,0=未参保),然后把未参保的人月剔除(如附图1),把参保的人月合计放入分母。以每个月为例,第一组分母的人月总和对应计算公式如式1:其中,t表示第t个月份;Insurancet,n为第n个该组个体在第t个月份的参保状态。n代表第一组分母的人月总和。第二组:参保且有报销记录但未出现目标诊断的个体该部分患者曾因病就诊,但未出现目标诊断,同时拥有参保记录、报销记录,同样在患病率/发病率计算时仅用作分母。具体需要统计观察时间内,每个观察对象在每个月的参保状态(1=参保,0=未参保),然后同样把未参保的人月剔除(如附图1),但参保的人月不能直接放入分母,而是根据诊断状态分为三种情况:第一种情况:未因病就诊无报销记录的人月直接纳入分母(如附图1),对每月而言,即未因病就诊无报销记录的当月人数m1,1;第二种情况:因病就诊且诊断完整的人月应纳入分母计算(如附图1),对每月而言即因病就诊且诊断完整的当月人数m1,2;第三种情况:有就诊但诊断缺失的人月应考虑后续填补(如附图1),提取因病就诊但诊断缺失的当月人数m1,3。以每个月为例,第二组分母的人月总和对应计算公式如式2:其中,t表示第t个月份;Insurancet,m为第m个该组个体在第t个月份的参保状态。m代表第二组分母的人月总和。第三组:参保有报销记录且出现目标诊断的个体该部分患者有因病就诊,且出现过目标诊断,同时拥有参保记录、报销记录,在患病率/发病率计算时用作分子和分母。就分母而言,具体需要统计观察时间内,每个观察对象在每个月的参保状态(1=参保,本文档来自技高网...
一种基于医保大数据测算疾病患病率的方法

【技术保护点】
1.一种基于医保大数据测算疾病患病率的方法,针对汇总格式数据高效地计数得到患病率计算对应的分子和分母,将特定时间内总人口中的所有患有某病的新旧病例数目作为计算患病率的分子,将特定时间内的总人口作为计算患病率的分母;通过汇总每月医保数据的多个关键参数;获得患病率计算的分子与分母信息,进而计算得到患病率;包括如下步骤:A1.确定数据库范围,包括数据的时间跨度、数据地域分布、门诊/住院数据;A2.进行数据库的基本清洗,定义患病率计算的目标疾病;A3.获取患病率计算的分母信息;具体包括三组:第一组是参保但从未报销的个体;第一组分母的人月总和表示如式1:

【技术特征摘要】
1.一种基于医保大数据测算疾病患病率的方法,针对汇总格式数据高效地计数得到患病率计算对应的分子和分母,将特定时间内总人口中的所有患有某病的新旧病例数目作为计算患病率的分子,将特定时间内的总人口作为计算患病率的分母;通过汇总每月医保数据的多个关键参数;获得患病率计算的分子与分母信息,进而计算得到患病率;包括如下步骤:A1.确定数据库范围,包括数据的时间跨度、数据地域分布、门诊/住院数据;A2.进行数据库的基本清洗,定义患病率计算的目标疾病;A3.获取患病率计算的分母信息;具体包括三组:第一组是参保但从未报销的个体;第一组分母的人月总和表示如式1:其中,t表示第t个月份;Insurancet,n为第n个该组个体在第t个月份的参保状态;n代表第一组分母的人月总和;第二组是参保且有报销记录但未出现目标诊断的个体;根据诊断状态包括三种情况:第一种情况:未因病就诊无报销记录的人月直接纳入分母,对每月而言,未因病就诊无报销记录的当月人数记作m1,1;第二种情况:因病就诊且诊断完整的人月应纳入分母计算,对每月而言,因病就诊且诊断完整的当月人数记作m1,2;第三种情况:有就诊但诊断缺失的人月应考虑后续填补,将因病就诊但诊断缺失的当月人数记作m1,3;以每个月为例,第二组分母的人月总和表示如式2:其中,t表示第t个月份;Insurancet,m为第m个该组个体在第t个月份的参保状态;m代表第二组分母的人月总和;第三组是参保有报销记录且出现目标诊断的个体;根据诊断状态包括三种情况:第一种情况:未因病就诊无报销记录的人月直接纳入分母,即将未因病就诊无报销记录的当月人数记作k1,1;第二种情况:因病就诊且诊断完整的人月应纳入分母计算,即将因病就诊且诊断完整的当月人数记作k1,2;第三种情况:有就诊但诊断缺失的人月应考虑后续填补,即将因病就诊但诊断缺失的当月人数记作k1,3;以每个月为例,第三组分母的人月总和表示如式3:其中,t表示第t个月份;Insurancet,k为第k个该组个体在第t个月份的参保状态;k代表示第三组分母的人月总和;A4.获取患病率计算的分子信息;具体包括两组:第一组是直接观测到的患者,为每个月诊断为目标疾病的人数之和,即∑tCase_real,其中,t表示第t个月份;Case_real表示每个月诊断为目标疾病的人数;第二组是诊断缺失需填补测算的患者;包括:参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数m1,3和参保有报销记录且既往已经出现目标诊断的个体中当月有就诊但诊断缺失的人数k1,3;填补后的目标疾病人数包括两部分:第一部分是根据参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者总数第二部分是根据参保有报销记录且既往已经出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者总数其中,t表示第t个月份;Caseimpute_m表示每个月内,根据参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者数;Caseimpute_k表示每个月内,根据参保且有报销记录且既往已经出现目标诊断的个体中,当月有就诊但诊断缺失的人数所估算的目标患者数;A5.对患病率计算的分子对应的患者信息的基本特征进行核查并统一,使得每个个体对应唯一的身份识别ID,同时每个唯一的身份识别...

【专利技术属性】
技术研发人员:王胜锋詹思延高培王金喜许璐冯菁楠尉晨
申请(专利权)人:北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1