本发明专利技术的提供了基于小样本的疾病亚型预测方法、系统、装置及介质,方法包括获取第一数据集的基因表达数据;通过预测模型对基因表达数据进行预测,得到待预测样本的疾病亚型;预测模型包括样本选择网、特征选择层以及元学习器;方法通过元学习器来训练得到疾病亚型预测的预测模型,通过元学习技术从相关的临床任务中学习,以提取有价值的信息,以帮助模型很好地推广到疾病亚型的预测任务;在该预测模型的训练过程中,通过特征选择以及样本重加权的过程,通过自适应地去除噪声数据,解决维度灾难问题可广泛应用于机器学习技术领域。
【技术实现步骤摘要】
基于小样本的疾病亚型预测方法、系统、装置及介质
本专利技术属于机器学习
,尤其是基于小样本的疾病亚型预测方法、系统、装置及介质。
技术介绍
疾病亚型预测是识别相似患者的亚群,可以指导特定个体的治疗决策。例如,在过去的15年里,乳腺癌的5种亚型被鉴定并被深入研究。在分子生物学水平上,利用基因表达数据预测疾病亚型,对于提高疾病诊断的准确性和识别潜在的疾病相关基因具有重要意义。然而,一个具有挑战性的问题是,基因表达数据是众所周知的小样本数据,即对于每种疾病亚型,我们只有相对较少的样本。近几年,越来越多的机器学习研究开始倾向于小样本学习。然而,与图像不同的是,基因表达数据由于其高维度和高噪声特性,很难进行分析,维度问题往往使预测变得更具有挑战性,因为决策中涉及大量冗余的特征。此外,基因表达数据不可避免地存在高噪声,容易使模型出现过拟合问题,导致模型泛化性能较差。
技术实现思路
有鉴于此,为至少部分解决上述技术问题之一,本专利技术实施例目的在于提供基于小样本的疾病亚型预测方法,通过增加特征选择和样本选择两个步骤,使其能够过滤出与疾病相关的基因和去除噪声数据,从而实现对疾病亚型的准确预测;同时本专利技术的实施例还提供可以对应实现基于小样本的疾病亚型预测方法的系统、装置及介质。第一方面,本专利技术实施例提供了基于小样本的疾病亚型预测方法,其包括以下步骤:获取第一数据集的基因表达数据;通过预测模型对基因表达数据进行预测,得到第一数据集的疾病亚型;预测模型包括样本选择网、特征选择层以及元学习器;预测模型通过以下步骤训练得到:构建第一样本数据集;样本数据集包括第二数据集的基因表达数据;通过特征选择层得到训练数据集的特征加权向量;根据特征加权向量构建第二样本数据集;将第二样本数据集输入样本选择网得到样本权重;根据第二样本数据集以及样本权重,训练元学习器,得到训练完成的预测模型。在本专利技术的一些实施例中,构建样本数据集这一步骤,其具体包括:获取若干基因表达数据,通过元分析得到第一样本数据集;或获取若干基因表达数据,通过批次校正以及机器学习,整合得到第一样本数据集。在本专利技术的一些实施例中,构建样本数据集这一步骤,其还包括:从第二数据集中,根据基因表达数据的类别抽取得到若干支持样本和若干查询样本;根据支持样本构建支持集;根据查询样本构建查询集。在本专利技术的一些实施例中,将第二样本数据集输入样本选择网得到样本权重这一步骤,其具体为:确定第二样本数据集中的样本数据的置信度,根据置信度分配样本权重。在本专利技术的一些实施例中,确定第二样本数据集中的样本数据的置信度这一步骤,其还包括:确定第二样本数据集中的样本数据的损失函数,将损失函数嵌入样本数据,通过神经网络拟合加权函数,得到样本数据的置信度。在本专利技术的一些实施例中,根据第二样本数据集以及样本权重,训练元学习器,得到训练完成的预测模型这一步骤,其中,训练元学习器这一步骤包括:根据样本权重去除支持集中的噪声样本;确定去噪后支持集中的样本类别;得到去噪后的支持集中样本与样本类别的欧几里距离,对欧几里得距离进行归一化,得到元学习器的输出。在本专利技术的一些实施例中,根据第二样本数据集以及样本权重,训练元学习器,得到训练完成的预测模型这一步骤,其还包括:根据查询集,对元学习器的输出进行校验,根据检验结果输出训练完成的预测模型。第二方面,本专利技术的技术方案还提供基于小样本的疾病亚型预测的系统,包括数据获取单元、模型构建单元,预测输出单元,其中:数据获取单元,用于获取第一数据集的基因表达数据;模型构建单元,用于训练得到预测模型,预测模型包括:样本选择网、特征选择层以及元学习器;预测模型的训练步骤包括:构建第一样本数据集;样本数据集包括第二数据集的基因表达数据;通过特征选择层得到训练数据集的特征加权向量;根据特征加权向量构建第二样本数据集;将第二样本数据集输入样本选择网得到样本权重;根据第二样本数据集以及样本权重,训练元学习器,得到训练完成的预测模型;预测输出单元,用于通过预测模型对基因表达数据进行预测,得到第一数据集样本的疾病亚型。第三方面,本专利技术的技术方案还提供基于小样本的疾病亚型预测的装置,其包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当至少一个程序被至少一个处理器执行,使得至少一个处理器实现第一方面中的基于小样本的疾病亚型预测方法。第四方面,本专利技术的技术方案还提供了一种存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于实现如第一方面中的方法。本专利技术的优点和有益效果将在下面的描述中部分给出,其他部分可以通过本专利技术的具体实施方式了解得到:本专利技术实施例所提供的基于小样本的疾病亚型预测方法,通过元学习器来训练得到疾病亚型预测的预测模型,通过元学习技术从相关的临床任务中学习,以提取有价值的信息,以帮助模型很好地推广到疾病亚型的预测任务;在该预测模型的训练过程中,通过特征选择以及样本重加权的过程,通过自适应地去除噪声数据,解决维度灾难问题,在预测疾病亚型和识别潜在疾病相关方面具有一定的优越性。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例基于小样本的疾病亚型预测方法的步骤流程图;图2为本专利技术实施例基于小样本的疾病亚型预测模型的训练方法的步骤流程图;图3为本专利技术实施例Select-ProtoNet在无偏数据下训练损失与ProtoNet在无偏数据下训练损失的曲线图;图4为本专利技术实施例Select-ProtoNet在无偏数据下准确率与ProtoNet在无偏数据下训练准确率的曲线图;图5为本专利技术实施例Select-ProtoNet在30%噪声率下训练数据的样本权重分布。具体实施方式下面详细描述本专利技术的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。本专利技术实施例所提供的技术方案,解决小样本疾病亚型预测问题。在基因组数据中较为常用的方法是通过在可比较的条件或处理下汇总来自多个研究的数据来扩大样本量。由于基因表达数据的复杂特性,方法通常会遇到瓶颈,融合不同平台或实验的数据不可避免地会受到批处理效应,异质性和其他偏差的影响。此外,现有的本文档来自技高网...
【技术保护点】
1.基于小样本的疾病亚型预测方法,其特征在于,包括以下步骤:/n获取第一数据集的基因表达数据;/n通过预测模型对所述基因表达数据进行预测,得到所述第一数据集的疾病亚型;所述预测模型包括样本选择网、特征选择层以及元学习器;/n所述预测模型通过以下步骤训练得到:/n构建第一样本数据集;所述样本数据集包括第二数据集的基因表达数据;/n通过所述特征选择层得到所述训练数据集的特征加权向量;根据所述特征加权向量构建第二样本数据集;/n将所述第二样本数据集输入所述样本选择网得到样本权重;/n根据所述第二样本数据集以及所述样本权重,训练所述元学习器,得到训练完成的预测模型。/n
【技术特征摘要】
1.基于小样本的疾病亚型预测方法,其特征在于,包括以下步骤:
获取第一数据集的基因表达数据;
通过预测模型对所述基因表达数据进行预测,得到所述第一数据集的疾病亚型;所述预测模型包括样本选择网、特征选择层以及元学习器;
所述预测模型通过以下步骤训练得到:
构建第一样本数据集;所述样本数据集包括第二数据集的基因表达数据;
通过所述特征选择层得到所述训练数据集的特征加权向量;根据所述特征加权向量构建第二样本数据集;
将所述第二样本数据集输入所述样本选择网得到样本权重;
根据所述第二样本数据集以及所述样本权重,训练所述元学习器,得到训练完成的预测模型。
2.根据权利要求1所述的基于小样本的疾病亚型预测方法,其特征在于,所述构建第一样本数据集这一步骤,其具体包括:
获取若干所述基因表达数据,通过元分析得到所述第一样本数据集;
或获取若干所述基因表达数据,通过批次校正以及机器学习,整合得到所述第一样本数据集。
3.根据权利要求1所述的基于小样本的疾病亚型预测方法,其特征在于,所述构建第一样本数据集这一步骤中,其还包括:
从所述第二数据集中,根据所述基因表达数据的类别抽取得到若干支持样本和若干查询样本;
根据所述支持样本构建支持集;根据所述查询样本构建查询集。
4.根据权利要求1所述的基于小样本的疾病亚型预测方法,其特征在于,所述将所述第二样本数据集输入所述样本选择网得到样本权重这一步骤,其具体为:
确定所述第二样本数据集中的样本数据的置信度,根据所述置信度分配所述样本权重。
5.根据权利要求4所述的基于小样本的疾病亚型预测方法,其特征在于,所述确定所述第二样本数据集中的样本数据的置信度这一步骤,其还包括:
确定所述第二样本数据集中的样本数据的损失函数,将所述损失函数嵌入所述样本数据,通过神经网络拟合加权函数,得到所述样本数据的置信度。
6.根据权利要求3所述的基于小样本的疾病亚型预测方法,其特征在...
【专利技术属性】
技术研发人员:梁勇,杨子翊,
申请(专利权)人:澳门科技大学,
类型:发明
国别省市:澳门;82
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。