当前位置: 首页 > 专利查询>武汉大学专利>正文

一种对医疗数据中等级资料进行标准化的方法技术

技术编号:28380073 阅读:47 留言:0更新日期:2021-05-08 00:08
本发明专利技术公开了一种对医疗数据中等级资料进行标准化的方法,包括:获取来源于不同数据源单位的原始体检数据列,通过标准术语表进行列名标准化处理并确定等级化规则;根据数据是否为纯数值型数据分为两类:将数据列中属于纯数值形态的数据内容依据指标参考范围自动转化为相应的等级化形态,即A类映射规则替换;将数据列中属于非纯数值形态的数据内容通过标准映射库替换为相应的等级化形态,即B类映射规则替换;合并A、B类规则清洗结果生成等级数据清洗的频次结果统计,对等级清洗结果进行质控;进行合并结果后的冲突项校正。本发明专利技术可将形态各异的等级资料内容治理为规则的等级形态,便于后续的挖掘与分析。

【技术实现步骤摘要】
一种对医疗数据中等级资料进行标准化的方法
本专利技术涉及医疗大数据
,尤其涉及一种对医疗数据中等级资料进行标准化的方法。
技术介绍
近年来,我国在大数据科学领域取得了飞速的发展。但是,在医疗健康大数据领域仍存在着很多技术瓶颈。其中一个亟待解决的难题是如何对海量的健康数据进行有效的治理,以便挖掘出有用的信息造福人类健康。体检数据是医疗健康数据的一个非常重要的来源,其所涵盖的人群面十分广泛。对健康体检数据进行有效的治理和挖掘,将会对我国的慢性病防控等领域提供非常重要的科学参考。健康体检数据主要包含了文本型数据、计量型数据和等级型数据这三种数据资料类型。等级资料指有一定级别的数据,如临床疗效分为治愈、显效、好转、无效,临床检验结果分为-、+、++、+++,疼痛等症状的严重程度分为0(无疼痛)、1(轻度)、2(中度)、3(重度)等。等级型数据由于不同单位的标准与描述方式不同,显得非常混乱。比如相同的等级型指标可能被记录为“-、±、+、++、+++、++++;阴性、弱阳性、阳性、强阳性;0.00(-)、10(弱阳)、500(+)、>10000”等形态各异的内容,导致数据难以通过分析转化为有价值的信息。而本专利技术能够很好地解决上面的问题。
技术实现思路
本专利技术要解决的技术问题在于针对现有技术中的缺陷,提供一种对医疗数据中等级资料进行标准化的方法。本专利技术解决其技术问题所采用的技术方案是:本专利技术提供一种对医疗数据中等级资料进行标准化的方法,该方法包括以下步骤:r>步骤1:获取来源于不同数据源单位的原始体检数据列,通过标准术语表进行列名标准化处理,得到标准化后的等级数据列;步骤2:确定待清洗的等级数据列及其等级化规则;步骤3:根据等级数据列中的数据是否为纯数值型数据分为两类,纯数值数据按照A类映射规则进行清洗,非纯数值数据按照B类映射规则进行清洗;步骤4:A类映射规则:将数据列中属于纯数值形态的数据内容依据指标参考范围自动转化为相应的等级化形态;步骤5:B类映射规则:将数据列中属于非纯数值形态的数据内容通过标准数据库替换为相应的等级化形态;步骤6、通过A、B类映射规则清洗后,合并清洗结果并进行等级形态的频次统计,对清洗结果进行质控;步骤7、合并等级化替换结果,进行合并结果后的冲突项校正,输出校正后的标准化数据。进一步地,本专利技术的所述步骤1中列名标准化处理的具体方法为:列名标准化给每一数据列匹配一个对应的标准术语,标准术语所属的资料类型包含了文本资料标准术语、计量资料标准术语和等级资料标准术语。进一步地,本专利技术的所述步骤2的具体方法为:标准化为等级资料术语的数据列将进入等级资料清洗流程,标准术语表制定了每一个等级资料术语对应的等级化标准,标准术语的等级化标准将等级资料的内容通过数字进行表述,从而能够将各种形态的等级化资料用一套统一的数字化标准进行标准化治理。进一步地,本专利技术的所述步骤4的具体方法为:A类映射规则即将该数据源单位给出的该指标的正常参考范围[a,b]通过算法自动转化为统一的区间形式:等级化形态1:(-∞,a)||||等级化形态2:[a,b]||||等级化形态3:(b,+∞);基于A类映射规则,等级数据列中的纯数值形态内容通过A类映射规则算法进行等级替换。进一步地,本专利技术的所述步骤5的具体方法为:B类映射规则是按照国家临床检验指南制定的一个专业数据库,其基本结构为标准术语名称-等级化规则-原始形态-对应的等级替换形态;基于B类映射规则,非纯数值形内容通过B类映射规则算法进行等级替换。进一步地,本专利技术的所述步骤6的具体方法为:通过算法对各标准术语下各数据列的等级形态频次进行统计,生成等级形态频次统计表,其形式为:标准术语名称-数据源单位/数据列-等级形态-等级形态频次-等级形态百分比。通过观察同一标准术语下的各数据列的等级形态分布比例是否异常实现对等级清洗结果的质控。进一步地,本专利技术的所述步骤7的具体方法为:将所有同一标准术语下的数据列进行合并,将同一患者对应有两个或两个以上相同标准术语下的不同等级形态标记为合并冲突,最后从合并冲突中选择唯一的、正确的等级形态。本专利技术产生的有益效果是:本专利技术的对医疗数据中等级资料进行标准化的方法,通过对等级型体检数据进行标准化治理,最后得到整齐统一的数字化检验结果,大大提高了等级资料体检数据的有序性和可挖掘性。附图说明下面将结合附图及实施例对本专利技术作进一步说明,附图中:图1是本专利技术实施例的等级资料数据清洗流程图;图2是本专利技术实施例的具体实施例流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,将等级数据列中属于纯数值形态的数据内容通过指标参考范围自动转化为相应的等级化形态(A类映射规则替换),将数据列中属于非纯数值形态的数据内容通过标准映射库替换为相应的等级化形态(B类映射规则替换),合并等级化替换结果,进行质控及合并结果后的冲突项校正。如图2所示的实施例,对标准术语为大便分析-红细胞的一列等级化数据,其原始形态包括了:-、±、+、++、+++、++++、阴性、弱阳性、阳性、强阳性、强强阳性、强强强阳性、0、2、4、12、18。通过等级清洗流程,可将原始形态最终替换为数字化的标准等级形态。该方法包括以下步骤:步骤1:对原始数据列通过标准术语表进行列名标准化处理。列名标准化会给每一数据列匹配一个最合适的标准术语。标准术语所属的资料类型包含了文本资料标准术语、计量资料标准术语和等级资料标准术语。步骤2:标准术语表还制定了每一个等级资料术语对应的等级化标准。标准术语的等级化标准将等级资料的内容通过数字进行表述,从而能够将各种形态的等级化资料用一套统一的数字化标准进行标准化治理。本数据列的标准术语为:大便分析-红细胞,为等级资料术语,其等级化标准为:1:阴性(-)、2:弱阳性(±)、3:阳性(+)、4:强阳性(++)、5:强强阳性(+++)、6:强强强阳性(++++)。步骤3:根据等级资料数据列中的形态是否为纯数值型,将数据列中的形态分为两类,即(1)纯数值型:0、2、4、12、18,这部分内容走A类规则进行等级替换;(2)非纯数值型:-、±、+、++、+++、++++、阴性、弱阳性、阳性、强阳性、强强阳性、强强强阳性,这部分内容走B类规则进行等级替换。纯数值形态内容和非纯数值形态的内容有各自的特点,宜按照不同的清洗规则进行清洗以提升清洗的效率及准确性。步骤4:计算机程序根据该数据源单位(通常为医院体检中心)给出的相应指标参考值范围生成A类映射规则。A类映射规则即将该数据源单位给出的该指标的正常参考范围转化统一的区间形式,进而通过计算机可识别的语言,将等级资料数据列中的本文档来自技高网...

【技术保护点】
1.一种对医疗数据中等级资料进行标准化的方法,其特征在于,该方法包括以下步骤:/n步骤1:获取来源于不同数据源单位的原始体检数据列,通过标准术语表进行列名标准化处理,得到标准化后的等级数据列;/n步骤2:确定待清洗的等级数据列及其等级化规则;/n步骤3:根据等级数据列中的数据是否为纯数值型数据分为两类,纯数值数据按照A类映射规则进行清洗,非纯数值数据按照B类映射规则进行清洗;/n步骤4:A类映射规则:将数据列中属于纯数值形态的数据内容依据指标参考范围自动转化为相应的等级化形态;/n步骤5:B类映射规则:将数据列中属于非纯数值形态的数据内容通过标准映射库替换为相应的等级化形态;/n步骤6、通过A、B类映射规则清洗后,合并清洗结果生成等级形态频次表,对清洗结果进行质控;/n步骤7、合并等级化替换结果,进行合并结果后的冲突项校正,输出校正后的标准化数据。/n

【技术特征摘要】
1.一种对医疗数据中等级资料进行标准化的方法,其特征在于,该方法包括以下步骤:
步骤1:获取来源于不同数据源单位的原始体检数据列,通过标准术语表进行列名标准化处理,得到标准化后的等级数据列;
步骤2:确定待清洗的等级数据列及其等级化规则;
步骤3:根据等级数据列中的数据是否为纯数值型数据分为两类,纯数值数据按照A类映射规则进行清洗,非纯数值数据按照B类映射规则进行清洗;
步骤4:A类映射规则:将数据列中属于纯数值形态的数据内容依据指标参考范围自动转化为相应的等级化形态;
步骤5:B类映射规则:将数据列中属于非纯数值形态的数据内容通过标准映射库替换为相应的等级化形态;
步骤6、通过A、B类映射规则清洗后,合并清洗结果生成等级形态频次表,对清洗结果进行质控;
步骤7、合并等级化替换结果,进行合并结果后的冲突项校正,输出校正后的标准化数据。


2.根据权利要求1所述的对医疗数据中等级资料进行标准化的方法,其特征在于,所述步骤1中列名标准化处理的具体方法为:
列名标准化给每一数据列匹配一个对应的标准术语,标准术语所属的资料类型包含了文本资料标准术语、计量资料标准术语和等级资料标准术语。


3.根据权利要求1所述的对医疗数据中等级资料进行标准化的方法,其特征在于,所述步骤2的具体方法为:
标准化为等级资料术语的数据列将进入等级资料清洗流程,标准术语表制定了每一个等级资料术语对应的等级化标准,标准术语的等级化标准将等级资料的内容通过数字进行表述,从而能够将各种形态的等级化资料用一套统一的数字化标准进行标准化治理。

【专利技术属性】
技术研发人员:李红良秦娟娟张晓晶
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1