【技术实现步骤摘要】
针对新型冠状病毒肺炎的疾病数据集样本获取处理方法、系统、装置、处理器及其存储介质
本专利技术涉及人工智能
,尤其涉及人工智能疾病早期筛查
,具体是指一种基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法、智能早诊系统、装置、处理器及其存储介质。
技术介绍
2019新型冠状病毒(2019-nCoV)是2019年底发现的一种冠状病毒,因其较强的传染性和较大的危害性受到全世界的关注。冠状病毒是一个大型病毒家族,可引起感冒以及中东呼吸综合征(MERS)和严重急性呼吸综合征(SARS)等严重疾病。新型冠状病毒是2019年以前从未在人体中发现的冠状病毒新毒株,人感染了冠状病毒后可能会导致肺炎,即新型冠状病毒肺炎(简称新冠肺炎)。新冠肺炎可能导致人体出现诸多不良症状,常见体征有呼吸道症状、发热、咳嗽、气促和呼吸困难等;在较严重病例中,感染可导致严重急性呼吸综合征、肾衰竭,甚至死亡。新冠病毒因其传染性强,危害性大,自出现以来疫情迅猛发展,截止至2020年底,全球已累计确诊超过1亿患者,至今仍是危害全人 ...
【技术保护点】
1.一种基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其特征在于,所述的方法包括以下步骤:/n(1)根据不同类别的采集标准,从医院电子病历中采集不同疾病类型的数据集,形成针对每一位目标患者的单张数据集;/n(2)对采集到的各个数据集进行特征抽取、特征完整性核查以及特征选择处理;/n(3)对处理后的各个数据集的数据进行计算评估,以获取符合要求的数据;/n(4)将所述的步骤(3)中计算评估所得的数据集进行样本分类和训练,生成决策树模型;/n(5)对目前已获取得到的数据集进行采集扩充处理,得到合并数据集样本。/n
【技术特征摘要】
1.一种基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其特征在于,所述的方法包括以下步骤:
(1)根据不同类别的采集标准,从医院电子病历中采集不同疾病类型的数据集,形成针对每一位目标患者的单张数据集;
(2)对采集到的各个数据集进行特征抽取、特征完整性核查以及特征选择处理;
(3)对处理后的各个数据集的数据进行计算评估,以获取符合要求的数据;
(4)将所述的步骤(3)中计算评估所得的数据集进行样本分类和训练,生成决策树模型;
(5)对目前已获取得到的数据集进行采集扩充处理,得到合并数据集样本。
2.根据权利要求1所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其特征在于,所述的步骤(1)中所述的不同疾病类型的数据集包括:
新型冠状病毒肺炎患者数据集,其他呼吸系统疾病患者数据集以及非呼吸系统疾病患者数据集。
3.根据权利要求2所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其特征在于,所述的步骤(1)中所述的不同采集标准包括:
根据病原学检查阳性采集标准,采集所述的新型冠状病毒肺炎患者数据集;
根据ICD9和ICD10呼吸系统疾病编码采集标准,采集所述的其他呼吸系统疾病患者数据集以及非呼吸系统疾病患者数据集。
4.根据权利要求3所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其特征在于,各个所述的数据集的采集字段列表信息包括患者基本信息、临床表现信息、实验室检查信息以及是否密接人群信息。
5.根据权利要求4所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其特征在于,所述的步骤(1)具体包括以下步骤:
(1.1)通过门诊号、患者主索引EMPI的唯一标识将采集到的患者的字段列表信息进行多表关联及样本去重形成单张数据表;
(1.2)根据不同的疾病类型,对采集到的各项数据集按照类别进行标注,并将该标注字段加入到对应的数据集字段列表中。
6.根据权利要求5所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其特征在于,所述的步骤(1.2)具体为:
将新冠肺炎患者、其他呼吸系统疾病患者以及非呼吸系统疾病患者分别标注为1、2、3,并将该字段信息作为标签字段加入到该患者对应的数据集字段列表中。
7.根据权利要求1所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其特征在于,所述的步骤(2)具体包括以下步骤:
(2.1)进行特征抽取处理,即如果获取的数据集为非结构化文本数据,则通过正则表达式、自然语言处理的方法抽取患者相关数据信息;如果获取的数据集为结构化文本数据,则核查该数据是否为数值型数据,若不是,则转换为数值型数据,否则,不进行任何处理;
(2.2)进行特征完整性核查处理,即对每个特征按照标签字段分类分别计算缺失率,若任一标签字段下缺失率大于80%,则删除该特征;
(2.3)进行特征选择处理,即如果采集到的相关数据为分类特征数据,则使用CramerV系数法进行特征筛选,以获取分类特征数据与标签数据之间的相关性;如果采集到的相关数据为连续数值特征数据,则使用相关比法进行特征筛选,以获取特征数据与标签数据之间的相关比。
8.根据权利要求7所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其特征在于,所述的步骤(2.1)中所述的相关数据信息包括发热、乏力、干咳、腹泻的分类特征信息,并在对应的数据集字段列表中分别用1、0代表有无该症状。
9.根据权利要求7所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其特征在于,所述的步骤(2.3)中所述的使用CramerV系数法进行特征筛选,具体包括以下步骤:
(2.3.a-1)使用分类特征字段和标签字段两列非空数据,通过以下公式计算样本数据的度量指标χ2:
其中,Ai为实际频数,表示标签类别下某一特征取值的计数;Ti为理论频数,表示标签类别在不同特征的比例完全相等情况下的应该出现的计数,χ2为样本数据推断总体数据的分布与期望分布是否有显著性差异的度量指标;
(2.3.a-2)将上述计算出的χ2结合下列公式,计算需要将其进行校正的φ系数:
其中,N为计算样本个数,φ为降低样本个数N不同带来的误差的矫正指标;
(2.3.a-3)结合上述步骤通过以下公式计算V系数,该值越大则表示该分类特征与类别标签之间具有更大的相关性:
其中,V表示分类特征和类别标签之间的相关性度量,min表示最小值,r为选择的特征个数,c为标签的取值个数。
10.根据权利要求9所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其特征在于,如果所述的V系数小于阈值0.25,则删除该相应的特征,否则保留该特征。
11.根据权利要求7所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其特征在于,所述的步骤(2.3)中所述的使用相关比法进行特征筛选具体包括以下步骤:
(2.3.b-1)使用分类特征字段和标签字段两列非空数据,通过以下公式计算同类别间特征分布离散程度的度量,即组内变异系数SS组内:
其中,k为标签的类别数,n1为类别下样本的数量,xij为第i个类别下第j个样本的取值,为第i个类别下样本的均值;
(2.3.b-2)根据以下公式计算对不同类别间特征分布离散程度的度量,即组间变异系数SS组间:
其中,为第i个类别下样本均数,为总均数;
(2.3.b-3)结合上述步骤计算特征数据与标签数据之间的相关比η:
12.根据权利要求11所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其特征在于,如果所述的相关比η小于阈值0.25,则删除该相应的特征,否则保留该特征。
13.根据权利要求7所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其特征在于,所述的步骤(3)具体包括以下步骤:
(3.1)将所述步骤(2)处理后得到的数据计算每一个特征类别下的样本个数ni,i=1,2,3,…;
(3.2)计算经过所述的步骤(2)处理之后,仍然保留但未被删除的所有特征,即剩余特征集合{Fi},i=1,2,...,m的特征个数m;
(3.3)若特征个数满足min(n1,n2,n3)>100且m>3,则执行所述的步骤(4);否则,执行所述的步骤(5)。
14.根据权利要求13所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其特征在于,所述的步骤(4)具体为:
将所述步骤(3)处理所得的数据随机选取80%样本作为训练数据集D,用以训练生成所述的CART决策树,得到决策树T1;将剩余20%样本作为测试数据集,使用所述的测试数据集输入所述的决策树T1进行预测,计算预测准确率acc;重复上述步骤10次,计算平均预测准确率设定准确率最低接受阈值thres1;若所述的平均预测准确率大于最低接受阈值thres1,则保存10个决策树生成决策树模型MS;否则,执行步骤(5)。
15.根据权利要求14所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其特征在于,所述的最低接受阈值thres1的取值范围为大于0,小于1。
16.根据权利要求14所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其特征在于,训练生成所述的CART决策树具体包括以下步骤:
(4.1)使用所述的训练数据集D,提取该训练集样本中每一个数据所对应的特征Ai和该特征对应的取值aij,将所述的训练数据集D划分为D1和D2两部分,计算该对应特征Ai在aij处的基尼指数,所述的基尼指数通过以下公式进行计算:
其中,Gini(p)为样本点p的基尼指数,K为分类特征类别,k为标签的类别数,pk为样本点p在K个分类特征类别中的第k类标签类别中的概率;
(4.2)针对该训练数据集所有的分类特征集{Ai}和该分类特征集所对应的所有切分点取值集{aij},选择基尼指数最小的特征及其对应的切分点取值作为该训练数据集的最优特征和最优切分点,从该最优切分点生成两个子节点,将划分后的所述的数据集D1和D2分别分配到生成的两个子节点中;
(4.3)将所述的步骤(4.2)中所得的两个子节点递归的调用上述步骤(4.1)和(4.2)进行相应处理,直到满足停止条件E,从而生成所述的CART决策树。
17.根据权利要求16所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其特征在于,所述的步骤(4.3)中所述的停止条件E具体为:
节点中样本个数小于所述的最低接受阈值thres1,或样本集基尼指数小于所述的最低接受阈值thres1,或者无可用特征。
18.根据权利要求1所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其特征在于,所述的步骤(5)具体为:
采用步骤(1)所述的采集标准采集其他医院包含不同疾病类型的数据集,将采集所得的扩充数据集和原始数据集进行字段对齐和样本合并,得到所述的合并数据集样本,并依次执行后续步骤。
19.一种基于CART决策树的实现新型冠状病毒肺炎的智能早诊的...
【专利技术属性】
技术研发人员:夏天,冯骏,赵丹丹,付晨,夏寒,卢鹏飞,王晔,张鑫金,张诚,道理,王春芳,虞慧婷,毛丹,林维晓,刘星航,钱晨嗣,杨妹,许锦,
申请(专利权)人:上海市疾病预防控制中心,上海市卫生健康委员会,万达信息股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。