辅助分析方法和装置、计算机可读存储介质、电子设备制造方法及图纸

技术编号:33038929 阅读:18 留言:0更新日期:2022-04-15 09:18
本公开是关于一种辅助分析方法和装置、计算机可读存储介质、电子设备,涉及机器学习技术领域,该方法包括:获取阳性样本以及阴性样本,对所述阴性样本数据进行补充,得到样本集;对所述样本集中的用户数据进行预处理,得到特征数据,对所述特征数据进行筛选,得到目标特征字段;获取所述样本集中的训练集,利用所述训练集中与所述目标特征字段对应的目标特征数据对预设分类器进行训练,得到目标分类器;通过所述目标分类器得到目标用户的分析结果。本公开提高了对罕见病的分析效率。本公开提高了对罕见病的分析效率。本公开提高了对罕见病的分析效率。

【技术实现步骤摘要】
辅助分析方法和装置、计算机可读存储介质、电子设备


[0001]本公开实施例涉及机器学习
,具体而言,涉及一种辅助分析方法和装置、计算机可读存储介质以及电子设备。

技术介绍

[0002]随着计算机技术的不断发展,为了评估和提高医疗质量,减少医疗差错,出现了临床预测模型。临床医生可以通过临床预测模型来深入分析病历资料,做出诊疗决策。
[0003]在医疗中,通常通过用户的阴性样本以及阳性样本来训练临床预测模型,当阴性样本与阳性样本比例悬殊时,常见的处理不平衡问题的方法分为两类:抽样以及对模型中的具体算法进行调整。抽样会导致数量较多的一方样本数据损失一些重要信息;对模型中的具体算法进行调整需要领域先验知识,并且不能泛化到不同任务,对于特定问题设计的代价矩阵只能用于该任务,在其他任务上使用时不能保证良好的性能,导致模型训练效率较低。
[0004]因此,需要提供一种新的辅助分析方法。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]本公开的目的在于提供一种辅助分析方法、辅助分析装置、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的由于阴阳性样本比例悬殊而降低模型训练效率的问题。
[0007]根据本公开的一个方面,提供一种辅助分析方法,包括:
[0008]获取阳性样本以及阴性样本,对所述阴性样本数据进行补充,得到样本集;
[0009]对所述样本集中的用户数据进行预处理,得到特征数据,对所述特征数据进行筛选,得到目标特征字段;
[0010]获取所述样本集中的训练集,利用所述训练集中与所述目标特征字段对应的目标特征数据对预设分类器进行训练,得到目标分类器;
[0011]通过所述目标分类器得到目标用户的分析结果。
[0012]在本公开的一种示例性实施例中,获取阳性样本以及阴性样本,对所述阴性样本数据进行补充,得到样本集,包括:
[0013]获取并将病历数据库中诊断结果为确诊目标疾病的用户数据作为阳性样本;
[0014]获取并将所述病历数据库中诊断结果为疑似目标疾病的用户数据作为阴性样本;
[0015]在确定所述阴性样本的数量少于预设样本数量时,获取诊断结果为确诊第二疾病的用户数据;
[0016]通过所述阳性样本、所述阴性样本以及所述诊断结果为确诊第二疾病的用户数据,得到样本集。
[0017]在本公开的一种示例性实施例中,获取并将所述病历数据库中诊断结果为疑似目标疾病的用户数据作为阴性样本数据,包括:
[0018]获取所述病历数据库中包括的诊断结果为疑似目标疾病的第一用户;
[0019]获取所述第一用户的家系成员,在确定所述第一用户的家系成员未确诊目标疾病时,将所述第一用户的用户数据作为阴性样本数据。
[0020]在本公开的一种示例性实施例中,对所述样本集中的用户数据进行预处理,得到特征数据,包括:
[0021]获取所述样本集中包括的用户数据;
[0022]在确定所述用户数据中包括结构化数据时,通过预设关键词对所述结构化数据进行筛选,得到筛选结果;
[0023]在确定所述用户数据中包括非结构化数据时,通过自然语言处理对所述非结构化数据进行提取,得到提取结果;
[0024]获取所述用户数据中包括的诊断结果,根据国际疾病分类对所述诊断结果进行统一,得到目标疾病的统一名称;
[0025]获取预设的病历报告表,基于所述病例报告表中包括的特征字段,通过所述筛选结果、所述提取结果以及所述目标疾病的统一名称得到特征数据。
[0026]在本公开的一种示例性实施例中,对所述特征数据进行筛选,得到目标特征字段,包括:
[0027]获取所述病例报告表中与每一特征字段对应的特征数据;
[0028]通过卡方检验,得到所述病历报告中与每一特征字段对应的特征数据和所述目标疾病阳性变量的卡方值,以及所述卡方值的概率值;
[0029]当所述卡方值的概率值大于预设概率值时,过滤掉与所述卡方值对应的特征字段,得到目标特征字段。
[0030]在本公开的一种示例性实施例中,获取所述样本集中的训练集,包括:
[0031]通过K折交叉验证或者样本的年份对所述样本集进行划分,得到训练集以及测试集。
[0032]在本公开的一种示例性实施例中,利用所述训练集中与所述目标特征字段对应的目标特征数据对预设分类器进行训练,得到目标分类器,包括:
[0033]获取所述训练集中与所述目标特征字段对应的目标特征数据,通过所述目标特征数据对所述预设分类器进行训练得到辅助分类器;
[0034]将所述测试集中包括的与所述目标特征字段对应的目标特征数据输入至所述辅助分类器,得到预测结果,通过所述测试结果对所述辅助分类器进行评价;
[0035]在确定所述辅助分类器的评价指标高于预设评价指标时,将所述辅助分类器作为所述目标分类器。
[0036]根据本公开的一个方面,提供一种辅助分析装置,包括:
[0037]样本集确定模块,用于获取阳性样本以及阴性样本,对所述阴性样本数据进行补充,得到样本集;
[0038]目标特征字段确定模块,用于对所述样本集中的用户数据进行预处理,得到特征数据,对所述特征数据进行筛选,得到目标特征字段;
[0039]分类器训练模块,用于获取所述样本集中的训练集,利用所述训练集中与所述目标特征字段对应的目标特征数据对预设分类器进行训练,得到目标分类器;
[0040]分析结果生成模块,用于通过所述目标分类器得到目标用户的分析结果。
[0041]根据本公开的一个方面,提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一示例性实施例所述的辅助分析方法。
[0042]根据本公开的一个方面,提供一种电子设备,包括:
[0043]处理器;以及
[0044]存储器,用于存储所述处理器的可执行指令;
[0045]其中,所述处理器配置为经由执行所述可执行指令来执行上述任一示例性实施例所述的辅助分析方法。
[0046]本公开实施例提供的一种辅助分析方法,获取阳性样本以及阴性样本,对所述阴性样本数据进行补充,得到样本集;对所述样本集中的用户数据进行预处理,得到特征数据,对所述特征数据进行筛选,得到目标特征字段;获取所述样本集中的训练集,利用所述训练集中与所述目标特征字段对应的目标特征数据对预设分类器进行训练,得到目标分类器;通过所述目标分类器得到目标用户的分析结果;一方面,在获取到阳性样本以及阴性样本之后,由于阴性样本与阳性样本比例悬殊,因此,对阴性样本数据进行填充,得到样本集,降低了阳性样本数量与阴性样本数量之间的差距,提升了模型训练的效率;另一方面,在得到特征数据之后,对特征数据进行筛选,排除本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种辅助分析方法,其特征在于,包括:获取阳性样本以及阴性样本,对所述阴性样本数据进行补充,得到样本集;对所述样本集中的用户数据进行预处理,得到特征数据,对所述特征数据进行筛选,得到目标特征字段;获取所述样本集中的训练集,利用所述训练集中与所述目标特征字段对应的目标特征数据对预设分类器进行训练,得到目标分类器;通过所述目标分类器得到目标用户的分析结果。2.根据权利要求1所述的辅助分析方法,其特征在于,获取阳性样本以及阴性样本,对所述阴性样本数据进行补充,得到样本集,包括:获取并将病历数据库中诊断结果为确诊目标疾病的用户数据作为阳性样本;获取并将所述病历数据库中诊断结果为疑似目标疾病的用户数据作为阴性样本;在确定所述阴性样本的数量少于预设样本数量时,获取诊断结果为确诊第二疾病的用户数据;通过所述阳性样本、所述阴性样本以及所述诊断结果为确诊第二疾病的用户数据,得到样本集。3.根据权利要求2所述的辅助分析方法,其特征在于,获取并将所述病历数据库中诊断结果为疑似目标疾病的用户数据作为阴性样本数据,包括:获取所述病历数据库中包括的诊断结果为疑似目标疾病的第一用户;获取所述第一用户的家系成员,在确定所述第一用户的家系成员未确诊目标疾病时,将所述第一用户的用户数据作为阴性样本数据。4.根据权利要求1所述的辅助分析方法,其特征在于,对所述样本集中的用户数据进行预处理,得到特征数据,包括:获取所述样本集中包括的用户数据;在确定所述用户数据中包括结构化数据时,通过预设关键词对所述结构化数据进行筛选,得到筛选结果;在确定所述用户数据中包括非结构化数据时,通过自然语言处理对所述非结构化数据进行提取,得到提取结果;获取所述用户数据中包括的诊断结果,根据国际疾病分类对所述诊断结果进行统一,得到目标疾病的统一名称;获取预设的病历报告表,基于所述病例报告表中包括的特征字段,通过所述筛选结果、所述提取结果以及所述目标疾病的统一名称得到特征数据。5.根据权利要求4所述的辅助分析方法,其特征在于,对所述特征数据进行筛选,得到目标特征字段,包括...

【专利技术属性】
技术研发人员:王伟
申请(专利权)人:天津开心生活科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1