System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及检验医学和疾病识别,尤其是涉及一种基于多任务自监督学习的医疗数据疾病识别模型构建方法。
技术介绍
1、基于医疗数据构建疾病识别模型通常只利用有标签的数据进行监督学习,或者只依赖于单一的自监督辅助任务。然而,这些方法未能充分挖掘无标签数据中的丰富信息,也未能有效地协调多任务之间的差异和协同。例如,有标签数据可能存在数量不足或质量不佳等问题,导致训练出的模型泛化性能较差,而且标注数据会增加成本。单一的辅助任务可能无法覆盖血常规检查结果中的所有特征和关系,并且可能与下游目标任务不一致或无关,从而降低模型的有效性。此外,现有的深度学习模型可能也缺乏对医疗数据中的不确定性、异常值、噪声等因素的处理能力,导致模型在面对复杂和变化的实际情况时表现不稳定和不可靠。
2、因此,现有技术所面临的问题是如何巧妙地利用无标签或低标签数据,提高深度学习模型在医疗数据识别疾病中的泛化性能和鲁棒性。这不仅需要融合多源信息以更全面地表征血常规特征,同时构建智能的多任务自监督学习框架,以协同学习不同任务,达到提升模型性能的目标。
技术实现思路
1、本专利技术的目的是提供一种基于多任务自监督学习的医疗数据疾病识别模型构建方法,通过自监督学习,利用缺失值填补和样本数据同源预测辅助任务,对无标签或少标签的医疗数据进行预训练,从而提取更全面和准确的特征,以达到提高下游任务泛化性能的目的。
2、为实现上述目的,本专利技术提供了一种基于多任务自监督学习的医疗数据疾病识别模型构建方法,包括以
3、s1、提取目标人群的医疗数据,组成原始样本数据集;
4、样本数据集包括缺失值填补数据集、样本数据同源分析数据集和疾病筛查数据集;
5、s2、对原始样本数据集进行清洗、标准化、归一化操作,去除异常值和噪声,使数据符合疾病识别模型输入的要求,得到预处理后的缺失值填补数据集、样本数据同源分析数据集和疾病筛查数据集;
6、s3、利用预处理后的缺失值填补数据集、样本数据同源分析数据集分别构建缺失值填补模型和样本数据同源测试模型;
7、s4、基于预处理后的疾病筛查数据集,利用多任务自监督学习模型,将缺失值填补和样本数据同源测试作为辅助任务,将已知疾病筛查作为下游任务,通过迁移学习实现对原始样本数据集的疾病风险评估。
8、优选的,步骤s1中,缺失值填补数据集是从医院或机构收集目标人群医疗数据,对目标人群医疗数据进行随机遮挡从而形成具有缺失值的数据集;
9、样本数据同源分析数据集中阳性数据是将第一条数据和第n条数据组合,表示这两条数据属于同一个人的样本数据;阴性样本是将第一条数据和第n条数据的镜像翻转得到的,表示这两条数据不属于同一个人的样本数据;n为数据量阈值。
10、优选的,步骤s3中,缺失值填补模型的构建是采用基于全连接神经网络的回归模型,将具有缺失值的数据作为输入,完整数据集作为输出;其具体操作为:
11、输入具有缺失值的数据x为{x1,x2,...,xn},其包含n条样本,每条样本xi包含m个特征;设缺失特征为xi,j,即第i条样本的第j个特征缺失,则回归模型表示为:
12、
13、其中,f(·;θ)为回归模型;θ为模型参数;
14、回归模型的训练目标是最小化预测误差,即:
15、
16、其中,l(·,·)为损失函数;
17、通过训练回归模型,得到缺失值填补后的完整数据集即其中,表示缺失值填补后的样本。
18、优选的,步骤s3中,样本数据同源测试模型的构建是利用孪生神经网络技术,具体操作为:
19、设两个输入数据集分别为w和z,即{w1,w2,...,wn}和{z1,z2,...,zn},其中wc和zc分别对应两个数据集中的第c个样本;
20、wc和zc组合形成孪生神经网络所需的样本对,并且标记同源标签,若wc和zc属于同一人的样本数据,则标记1;反之为0;
21、孪生网络模型由两个共享参数的子网络和一个距离度量层组成;
22、两个子网络g(·,φ)采用全连接神经网络结构实现,其中,φ指模型参数;
23、距离度量层采用欧氏距离形式实现,即:
24、dc=d(g(wc,φ),g(zc,φ)) (3)
25、其中,dc为相似度;
26、最后利用二元交叉熵损失函数训练孪生网络模型,得到每对样本的同源预测结果。
27、因此,本专利技术采用上述一种基于多任务自监督学习的医疗数据疾病识别模型构建方法,其技术效果如下:
28、(1)通过引入“缺失值填补结合样本数据同源预测”作为辅助任务,从水平和垂直两种维度提升模型对样本信息中个体内差异与个体间差异的挖掘,能够更好地利用医疗数据的复杂关联,从而提取更有效的特征信息;
29、(2)解决了现有技术中基于医疗数据的疾病筛查特征提取不充分、模型泛化能力差等技术问题,具有较高的优越性和创新性。
30、下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
本文档来自技高网...【技术保护点】
1.一种基于多任务自监督学习的医疗数据疾病识别模型构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于多任务自监督学习的医疗数据疾病识别模型构建方法,其特征在于,步骤S1中,缺失值填补数据集是从医院或机构收集目标人群医疗数据,对目标人群医疗数据进行随机遮挡从而形成具有缺失值的数据集;
3.根据权利要求1所述的一种基于多任务自监督学习的医疗数据疾病识别模型构建方法,其特征在于,步骤S3中,缺失值填补模型的构建是采用基于全连接神经网络的回归模型,将具有缺失值的数据作为输入,完整数据集作为输出;其具体操作为:
4.根据权利要求1所述的一种基于多任务自监督学习的医疗数据疾病识别模型构建方法,其特征在于,步骤S3中,样本数据同源测试模型的构建是利用孪生神经网络技术,具体操作为:
【技术特征摘要】
1.一种基于多任务自监督学习的医疗数据疾病识别模型构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于多任务自监督学习的医疗数据疾病识别模型构建方法,其特征在于,步骤s1中,缺失值填补数据集是从医院或机构收集目标人群医疗数据,对目标人群医疗数据进行随机遮挡从而形成具有缺失值的数据集;
3.根据权利要求1所述的一种基于多任务...
【专利技术属性】
技术研发人员:陈超,宋彪,王亚楠,
申请(专利权)人:内蒙古卫数数据科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。