基于小样本的疾病亚型预测方法、系统、装置及介质制造方法及图纸

技术编号:26794843 阅读:32 留言:0更新日期:2020-12-22 17:11
本发明专利技术的提供了基于小样本的疾病亚型预测方法、系统、装置及介质,方法包括获取第一数据集的基因表达数据;通过预测模型对基因表达数据进行预测,得到待预测样本的疾病亚型;预测模型包括样本选择网、特征选择层以及元学习器;方法通过元学习器来训练得到疾病亚型预测的预测模型,通过元学习技术从相关的临床任务中学习,以提取有价值的信息,以帮助模型很好地推广到疾病亚型的预测任务;在该预测模型的训练过程中,通过特征选择以及样本重加权的过程,通过自适应地去除噪声数据,解决维度灾难问题可广泛应用于机器学习技术领域。

【技术实现步骤摘要】
基于小样本的疾病亚型预测方法、系统、装置及介质
本专利技术属于机器学习
,尤其是基于小样本的疾病亚型预测方法、系统、装置及介质。
技术介绍
疾病亚型预测是识别相似患者的亚群,可以指导特定个体的治疗决策。例如,在过去的15年里,乳腺癌的5种亚型被鉴定并被深入研究。在分子生物学水平上,利用基因表达数据预测疾病亚型,对于提高疾病诊断的准确性和识别潜在的疾病相关基因具有重要意义。然而,一个具有挑战性的问题是,基因表达数据是众所周知的小样本数据,即对于每种疾病亚型,我们只有相对较少的样本。近几年,越来越多的机器学习研究开始倾向于小样本学习。然而,与图像不同的是,基因表达数据由于其高维度和高噪声特性,很难进行分析,维度问题往往使预测变得更具有挑战性,因为决策中涉及大量冗余的特征。此外,基因表达数据不可避免地存在高噪声,容易使模型出现过拟合问题,导致模型泛化性能较差。
技术实现思路
有鉴于此,为至少部分解决上述技术问题之一,本专利技术实施例目的在于提供基于小样本的疾病亚型预测方法,通过增加特征选择和样本选择两个步骤,使其能够本文档来自技高网...

【技术保护点】
1.基于小样本的疾病亚型预测方法,其特征在于,包括以下步骤:/n获取第一数据集的基因表达数据;/n通过预测模型对所述基因表达数据进行预测,得到所述第一数据集的疾病亚型;所述预测模型包括样本选择网、特征选择层以及元学习器;/n所述预测模型通过以下步骤训练得到:/n构建第一样本数据集;所述样本数据集包括第二数据集的基因表达数据;/n通过所述特征选择层得到所述训练数据集的特征加权向量;根据所述特征加权向量构建第二样本数据集;/n将所述第二样本数据集输入所述样本选择网得到样本权重;/n根据所述第二样本数据集以及所述样本权重,训练所述元学习器,得到训练完成的预测模型。/n

【技术特征摘要】
1.基于小样本的疾病亚型预测方法,其特征在于,包括以下步骤:
获取第一数据集的基因表达数据;
通过预测模型对所述基因表达数据进行预测,得到所述第一数据集的疾病亚型;所述预测模型包括样本选择网、特征选择层以及元学习器;
所述预测模型通过以下步骤训练得到:
构建第一样本数据集;所述样本数据集包括第二数据集的基因表达数据;
通过所述特征选择层得到所述训练数据集的特征加权向量;根据所述特征加权向量构建第二样本数据集;
将所述第二样本数据集输入所述样本选择网得到样本权重;
根据所述第二样本数据集以及所述样本权重,训练所述元学习器,得到训练完成的预测模型。


2.根据权利要求1所述的基于小样本的疾病亚型预测方法,其特征在于,所述构建第一样本数据集这一步骤,其具体包括:
获取若干所述基因表达数据,通过元分析得到所述第一样本数据集;
或获取若干所述基因表达数据,通过批次校正以及机器学习,整合得到所述第一样本数据集。


3.根据权利要求1所述的基于小样本的疾病亚型预测方法,其特征在于,所述构建第一样本数据集这一步骤中,其还包括:
从所述第二数据集中,根据所述基因表达数据的类别抽取得到若干支持样本和若干查询样本;
根据所述支持样本构建支持集;根据所述查询样本构建查询集。


4.根据权利要求1所述的基于小样本的疾病亚型预测方法,其特征在于,所述将所述第二样本数据集输入所述样本选择网得到样本权重这一步骤,其具体为:
确定所述第二样本数据集中的样本数据的置信度,根据所述置信度分配所述样本权重。


5.根据权利要求4所述的基于小样本的疾病亚型预测方法,其特征在于,所述确定所述第二样本数据集中的样本数据的置信度这一步骤,其还包括:
确定所述第二样本数据集中的样本数据的损失函数,将所述损失函数嵌入所述样本数据,通过神经网络拟合加权函数,得到所述样本数据的置信度。


6.根据权利要求3所述的基于小样本的疾病亚型预测方法,其特征在...

【专利技术属性】
技术研发人员:梁勇杨子翊
申请(专利权)人:澳门科技大学
类型:发明
国别省市:澳门;82

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1