【技术实现步骤摘要】
一种基于医保大数据测算疾病患病率的方法
本专利技术涉及数据处理技术,尤其涉及一种基于医保大数据测算疾病患病率(Prevalence)的方法,具体针对汇总数据格式下高效计数患病率对应分子、分母进行统计运算。
技术介绍
医保数据(Claimsdata),是医保业务过程中获得的数据,由于无需抽样调查,天然覆盖较大规模的人群,并较为完整真实的记录该人群在一定时间范围内的就医信息,被越来越多的用于疾病的患病率研究。常规的流行病学研究中,计算患病率需要明确分母的人口规模,计数某一时间内对应的病例数量。但对于现在积累的海量医保数据,无论数据存储的期别、格式和体量,还是数据指标的跨度、缺失和个体脱保等,都会导致直接实施上述思路遇到一些问题,从而制约医保大数据的实际应用。美国的Medicaid、Medicare联合办公中心总结开发了适用于两者数据库的常见慢性病症的患者界定规则,但同时明确指出目标患者的界定规则因数据库而异、因病而异。美国Jensen等对影响分母的界定参数进行了探讨,提出就诊频率不高的病症,最短观察时间设定较短会导致患病率低估,设定较长又会导致高估,具体需要因病而异。上述探索均集中在国外,而我们国家医保报销模式决定了医保数据的实际存储以月为单位,患者参保信息与就诊信息之间以就诊号关联。国外研究都基于个体原始数据,数据量与运算资源性能相对匹配,而我国医保人口超过13亿,多人次多年份的海量数据情境下,传统的构建个体面板数据的运算策略将会导致数据稀疏、信息冗余、存储和运算困难等问题。
技术实现思路
本专利技术的目的是提供一种基于医保大数据测算疾病患病率的新方法,基于优化 ...
【技术保护点】
1.一种基于医保大数据测算疾病患病率的方法,针对汇总格式数据高效地计数得到患病率计算对应的分子和分母,将特定时间内总人口中的所有患有某病的新旧病例数目作为计算患病率的分子,将特定时间内的总人口作为计算患病率的分母;通过汇总每月医保数据的多个关键参数;获得患病率计算的分子与分母信息,进而计算得到患病率;包括如下步骤:A1.确定数据库范围,包括数据的时间跨度、数据地域分布、门诊/住院数据;A2.进行数据库的基本清洗,定义患病率计算的目标疾病;A3.获取患病率计算的分母信息;具体包括三组:第一组是参保但从未报销的个体;第一组分母的人月总和表示如式1:
【技术特征摘要】
1.一种基于医保大数据测算疾病患病率的方法,针对汇总格式数据高效地计数得到患病率计算对应的分子和分母,将特定时间内总人口中的所有患有某病的新旧病例数目作为计算患病率的分子,将特定时间内的总人口作为计算患病率的分母;通过汇总每月医保数据的多个关键参数;获得患病率计算的分子与分母信息,进而计算得到患病率;包括如下步骤:A1.确定数据库范围,包括数据的时间跨度、数据地域分布、门诊/住院数据;A2.进行数据库的基本清洗,定义患病率计算的目标疾病;A3.获取患病率计算的分母信息;具体包括三组:第一组是参保但从未报销的个体;第一组分母的人月总和表示如式1:其中,t表示第t个月份;Insurancet,n为第n个该组个体在第t个月份的参保状态;n代表第一组分母的人月总和;第二组是参保且有报销记录但未出现目标诊断的个体;根据诊断状态包括三种情况:第一种情况:未因病就诊无报销记录的人月直接纳入分母,对每月而言,未因病就诊无报销记录的当月人数记作m1,1;第二种情况:因病就诊且诊断完整的人月应纳入分母计算,对每月而言,因病就诊且诊断完整的当月人数记作m1,2;第三种情况:有就诊但诊断缺失的人月应考虑后续填补,将因病就诊但诊断缺失的当月人数记作m1,3;以每个月为例,第二组分母的人月总和表示如式2:其中,t表示第t个月份;Insurancet,m为第m个该组个体在第t个月份的参保状态;m代表第二组分母的人月总和;第三组是参保有报销记录且出现目标诊断的个体;根据诊断状态包括三种情况:第一种情况:未因病就诊无报销记录的人月直接纳入分母,即将未因病就诊无报销记录的当月人数记作k1,1;第二种情况:因病就诊且诊断完整的人月应纳入分母计算,即将因病就诊且诊断完整的当月人数记作k1,2;第三种情况:有就诊但诊断缺失的人月应考虑后续填补,即将因病就诊但诊断缺失的当月人数记作k1,3;以每个月为例,第三组分母的人月总和表示如式3:其中,t表示第t个月份;Insurancet,k为第k个该组个体在第t个月份的参保状态;k代表示第三组分母的人月总和;A4.获取患病率计算的分子信息;具体包括两组:第一组是直接观测到的患者,为每个月诊断为目标疾病的人数之和,即∑tCase_real,其中,t表示第t个月份;Case_real表示每个月诊断为目标疾病的人数;第二组是诊断缺失需填补测算的患者;包括:参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数m1,3和参保有报销记录且既往已经出现目标诊断的个体中当月有就诊但诊断缺失的人数k1,3;填补后的目标疾病人数包括两部分:第一部分是根据参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者总数第二部分是根据参保有报销记录且既往已经出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者总数其中,t表示第t个月份;Caseimpute_m表示每个月内,根据参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者数;Caseimpute_k表示每个月内,根据参保且有报销记录且既往已经出现目标诊断的个体中,当月有就诊但诊断缺失的人数所估算的目标患者数;A5.对患病率计算的分子对应的患者信息的基本特征进行核查并统一,使得每个个体对应唯一的身份识别ID,同时每个唯一的身份识别...
【专利技术属性】
技术研发人员:王胜锋,詹思延,高培,王金喜,许璐,冯菁楠,尉晨,
申请(专利权)人:北京大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。