System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于计算机系统工程领域,尤其涉及一种联合深度学习的乳腺癌风险评估方法与系统。
技术介绍
1、近几年来,乳腺癌发生率逐年上升。其中,her2 阳性乳腺癌是一种被称为人表皮生长因子受体2(her2)的蛋白质检测呈阳性的乳腺癌。这种蛋白质对癌细胞的生长有促进作用。 每5 名乳腺癌患者中大约有1 名患者的癌细胞中含有用于制造 her2 蛋白质的额外基因拷贝。 her2 阳性乳腺癌通常比其他类型的乳腺癌更具侵袭性。
2、深度学习作为最近几年机器学习领域的一个热点,非常适用于医疗文本的数据挖掘。由于传统的自然语言处理采用机器学习的方法,需要使用大量的领域知识人工设计出每种疾病的评估指标。这些评估指标被称作特征,且通常是由具体疾病种类导向的,容易导致过度设计(over engineer),也不具有广泛的适用性。深度学习通过组合低层特征形成更加抽象的高层特征表示属性类别或特征,以发现数据的分布式特征表示。其强大的自动特征提取、复杂模型构建能力,不仅可以避免繁琐的人工特征抽取,有效地利用无监督数据,并且具有优秀的泛化能力,可以应用到不同的医疗领域。因此引起了医学领域研究人员的广泛关注。
技术实现思路
1、针对上述现有技术中存在的缺陷,本专利技术提供一种联合深度学习的乳腺癌风险评估评测方法,包括以下步骤:
2、步骤1、收集基因组数据、临床信息、家族史信息和影像学检查的图像;
3、步骤2、根据收集的信息特点,选择不同的特征提取模型进行特征提取;
5、步骤4、使用多层感知机mlp构建乳腺癌风险评估模型;
6、步骤5、将所述输入特征向量输入到模型中,根据所述乳腺癌风险评估模型输出与实际标签之间的误差,以训练所述乳腺癌风险评估模型;
7、步骤6、获取新的基因组数据、临床信息和影像学检查的图像,重复步骤2和步骤3,获取新的输入特征向量;
8、步骤7、将所述新的输入特征向量输入所述乳腺癌风险评估模型,得到所述评估结果。
9、其中,所述基因组数据包括:全外显子组测序或基因组测序数据。
10、其中,所述步骤2包括:
11、采用循环神经网络模型对所述基因组数据进行特征提取;
12、采用支持向量机对所述临床信息进行特征提取;
13、采用随机森林算法对所述影像学检查的图像进行特征提取。
14、其中,在所述步骤3之后还包括:将输入特征向量构成的数据集划分为训练集和测试集,用于模型的训练和评估。
15、其中,采用随机划分或者交叉验证的方法对所述数据集进行划分。
16、其中,在所述步骤4之后还包括:选择合适的超参数。
17、其中,选择的所述超参数为:
18、学习率learning rate:lr = 0.01;
19、批量大小batch size:batch_size = 32;
20、隐藏层神经元数量和层数:hidden_units = [64, 64],层数为2;
21、正则化参数regularization parameter:lambda_reg = 0.001;
22、激活函数选择relu。
23、其中,所述所述多层感知机mlp模型如下:
24、假设定义输入特征向量为x,基因组数据、临床信息、家族史和影像学检查的图像组成的四个特征向量,假设输入特征向量的维度为d,
25、初始化输入层、隐藏层和输出层的权重和偏置:
26、输入层到第一个隐藏层的权重:w1,维度为(hidden_units[0], d);
27、第一个隐藏层的偏置:b1,维度为(hidden_units[0], 1);
28、第一个隐藏层到第二个隐藏层的权重:w2,维度为(hidden_units[1], hidden_units[0]);
29、第二个隐藏层的偏置:b2,维度为(hidden_units[1], 1);
30、第二个隐藏层到输出层的权重:w3,维度为(1, hidden_units[1]);
31、输出层的偏置:b3,维度为(1, 1);
32、则进行前向传播计算:
33、输入层到第一个隐藏层的输出:z1 = w1 * x + b1;
34、第一个隐藏层的激活值:a1 = relu(z1);
35、第一个隐藏层到第二个隐藏层的输出:z2 = w2 * a1 + b2;
36、第二个隐藏层的激活值:a2 = relu(z2);
37、第二个隐藏层到输出层的输出:z3 = w3 * a2 + b3;
38、输出层的预测值:y_pred = sigmoid(z3);
39、其中,lambda_reg表示正则化参数,用于控制模型的复杂度;
40、np.sum:numpy库中的函数,用于计算数组元素的和;
41、学习率lr:,控制每次参数更新的步长或大小;
42、batch_size表示批量大小,指定用于训练的每个批次中的样本数量;
43、hidden_units表示隐藏层神经元数量,指定每个隐藏层中的神经元数量;
44、w1, w2, w3表示权重矩阵,用于将输入特征与隐藏层或输出层进行线性变换;
45、b1, b2, b3表示偏置,偏置向量用于在线性变换后添加偏移量;
46、修正线性单元relu,用于引入非线性性质;
47、sigmoid:sigmoid函数,用于将输出值限制在0到1之间,用于二分类问题中的概率预测。。
48、其中,所述多层感知机mlp模型优化包括:假设训练集的标签为y_true,我们可以使用二分类交叉熵损失函数:
49、损失函数:loss = - (y_true * log(y_pred) + (1 - y_true) * log(1 - y_pred));
50、输出层的梯度:dz3 = y_pred - y_true;
51、第二个隐藏层的梯度:da2 = (w3t* dz3) * relu_derivative(z2);
52、第一个隐藏层的梯度:da1 = (w2t* da2) * relu_derivative(z1);
53、第二个隐藏层到输出层的权重和偏置的梯度:dw3 = (dz3 * a2t) / batch_size+ lambda_reg * w3;
54、输出层的偏置梯度:db3 = np.sum(dz3, axis=1, kee本文档来自技高网...
【技术保护点】
1.一种联合深度学习的乳腺癌风险评估方法,包括以下步骤:
2.如权利要求1所述方法,其中所述基因组数据包括:全外显子组测序或基因组测序数据。
3.如权利要求2所述方法,其中所述步骤2包括:
4.如权利要求1所述方法,其中在所述步骤3之后还包括:将输入特征向量构成的数据集划分为训练集和测试集,用于模型的训练和评估。
5.如权利要求4所述方法,其中采用随机划分或者交叉验证的方法对所述数据集进行划分。
6.如权利要求1所述方法,其中在所述步骤4之后还包括:选择合适的超参数。
7.如权利要求6所述方法,其中选择的所述超参数为:
8.如权利要求7所述方法,其中所述所述多层感知机MLP模型如下:
9.如权利要求8所述方法,其中所述多层感知机MLP模型优化包括:假设训练集的标签为y_true,我们可以使用二分类交叉熵损失函数:
10.一种联合深度学习的乳腺癌风险评估系统,其包括:
【技术特征摘要】
1.一种联合深度学习的乳腺癌风险评估方法,包括以下步骤:
2.如权利要求1所述方法,其中所述基因组数据包括:全外显子组测序或基因组测序数据。
3.如权利要求2所述方法,其中所述步骤2包括:
4.如权利要求1所述方法,其中在所述步骤3之后还包括:将输入特征向量构成的数据集划分为训练集和测试集,用于模型的训练和评估。
5.如权利要求4所述方法,其中采用随机划分或者交叉验证的方法对所述数据集进行划...
【专利技术属性】
技术研发人员:曹圳杰,于江波,袁家琳,马捷,
申请(专利权)人:深圳市人民医院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。