System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于图神经网络的多组学可信整合的分类模型及方法技术_技高网

一种基于图神经网络的多组学可信整合的分类模型及方法技术

技术编号:40544430 阅读:7 留言:0更新日期:2024-03-05 19:01
本发明专利技术涉及一种基于图神经网络的多组学可信整合的分类模型及方法。该方法包括:针对一个样本,准备该样本的组学数据;构建每种组学数据的特异性网络;对组学特异性网络进行聚合更新,并对提取的组学特征进行降维和分类,产生每种组学的初始分类;计算每种组学的置信度,并对聚合后的特征进行增强;融合多种组学的置信增强特征,产生最终的分类结果;输出目标对象的医学分析结果。该模型包括:多组学数据准备模块、组学数据网络化构建模块、特征聚合及分类模块、置信度计算及增强模块、特征融合及分类模块、输出模块。

【技术实现步骤摘要】

本专利技术涉及生物信息学,尤其涉及一种基于图神经网络的多组学可信整合的分类模型及方法


技术介绍

1、随着医学研究的不断深入,组学数据(如基因组学、转录组学、蛋白组学、代谢组学等)为我们提供了宝贵的信息资源,帮助我们更好地理解疾病的发生、发展及治疗机制。这些数据尤其在复杂疾病,例如在阿尔兹海默症和癌症的诊断和治疗中,展现出巨大的价值。

2、随着高通量测序技术的迅速发展和成本的降低,越来越多的包含高质量组学数据的公共数据库被研发出来。因此,生物信息学领域的研究人员对组学数据的研究也从原来的仅仅使用单一组学数据发展到同时使用多种组学数据。同时,复杂疾病的分级以及分型作为一种复杂性状,都具有不同的临床、病理和分子特征,并且具有预后和治疗意义。因此,关于复杂疾病分级分型的研究对于精准医学和预后预测具有重要意义。很多相关方法是基于传统机器学习的,并且大多都是基于单组学数据的。而基于多组学数据整合的方法不多,并且其结果还有待提升。

3、例如,wang等人[wang t,shao w,huang z,et al.mogonet integrates multi-omics data using graph convolutional networks allowing patient classificationand biomarker identification[j].nature communications,2021,12(1):1-13.]提出了多组学图卷积网络(multi-omics graph convolutional networks,mogonet)整合方法,用于生物医学分类。该方法可概括为三个部分:首先是对每种组学数据类型进行预处理和特征选择,然后通过gcn进行特定组学学习,最后通过vcdn进行多组学集成。它的优点是加入的vcdn模型可以更好地对数据分类,其实验结果也具有良好的可解释性。

4、再例如,althubaiti等人[althubaiti s,kulmanov m,liu y,et al.deepmocca:apan-cancer prognostic model identifies personalized prognostic markersthrough graph attention and multi-omics data integration[j].biorxiv,2021.]开发了一个用于多组学癌症分析的框架deepmocca,该框架由图卷积神经网络和图注意力机制构成,能够预测33种癌症类型的样本的生存时间,优于大多数现有的方法,且图注意力机制能够用于识别患者中的驱动因素和预后标记,但其不足之处在于缺乏许多癌症的准确预后标记。

5、现有技术方案在针对提取组学表征信息和克服组学异质性上存在缺陷。从技术上讲,根据整合时机分类,多组学整合可分为早期整合、中期整合和后期整合三种不同类型。早期整合指先将数据集转换为单个基于特征的表或基于图的表示,然后采用原始或降维处理后的不同数据组合,最后输入机器学习模型得到预测结果。它的缺点是忽略了每种组学数据类型的独特分布,权重需要规范化,增加了输入数据的维度。而且,当整合的组学种类增加时,整合的效果往往会下降。中期整合是指保留数据集的数据结构,并仅在分析阶段合并它们,是一种通过联合模型将其融合的算法,能够解决数据集多样性问题。该方法的缺点是对特征的预处理要求较高,既要限制数量防止维度爆炸,还要满足能够表达组学数据的特点的需要。后期整合指先让每个组学数据类型分别学习特征,形成多个第一级训练模型,然后将第一级训练得到的特征整合,用作分类器或回归器的输入。它的缺点是可靠性低,仅将每种组学的预测结果整合,挖掘能整合的特征开销大,而且没有利用组学之间的互补信息。

6、因此,本领域需要研究一种基于图神经网络的多组学数据整合的深度学习算法来实现对复杂疾病分化度和亚型分类的预测。

7、此外,一方面由于对本领域技术人员的理解存在差异;另一方面由于申请人做出本专利技术时研究了大量文献和专利,但篇幅所限并未详细罗列所有的细节与内容,然而这绝非本专利技术不具备这些现有技术的特征,相反本专利技术已经具备现有技术的所有特征,而且申请人保留在
技术介绍
中增加相关现有技术之权利。


技术实现思路

1、针对现有技术之不足,本专利技术旨在提供一种基于图神经网络的多组学可信整合的分类模型及方法,以利用复杂疾病(阿尔兹海默症和癌症等)的多组学数据(包括mrna组学、甲基化组学、mirna组学)得到所述目标对象的医学分析结果(病程分级和疾病亚型)。传统的统计学方法在处理组学数据时需要大量的人工干预,难以为疾病提供明确的分类或分型。此外,现有的机器学习方法虽然可以筛选出与疾病相关的生物标志物,但其预测结果缺乏解释性,且预测精度有待提高。

2、现有技术产生上述问题的原因主要有如下三点:

3、(1)组学数据具有各自的特点:

4、多组学整合分析需要用到多种组学的数据集,如,代谢组、转录组、基因组等组学数据。这些数据结构不同,数据类型也不同。这种特点使得在整合过程中,各种组学会彼此干扰,影响整合的效果,从而影响最终的任务目标。

5、(2)算法模型:

6、组学数据具有高维度、多噪音、数据稀疏、异质性的特点以及实验中存在数据集不平衡的问题,其都会影响模型预测的精度。因此,要将不同的、复杂的且大规模的组学数据进行整合,对算法模型和计算平台的分析能力提出了较高要求。早期和中期整合策略确实可通过预先整合所有数据集来解决这个问题,但是早期整合产生的大矩阵很难被大多数机器学习模型利用,而中间整合通常依赖于无监督矩阵分解,难以合并相当大数量的预先存在的生物学知识。现有的组学数据整合分析方法和算法模型已获得一定的成功,但多是将各组学数据独立分析后,再将结果进行整合,其整合分析能力有限。

7、(3)特征提取能力:

8、传统整合方法往往直接将预处理后的特征输入模型,这种操作并不能很好地提取组学数据的隐藏信息。而利用组学的天然拓扑属性,能够更进一步地提取组学数据的隐藏信息,有利于后续的整合操作。

9、为了整合多组学数据,现有技术已经出现通过使用集成学习等方法将各类机器学习的优势进行集成来实现数据准确选取的技术方案。例如,公开号为cn115565610a的专利文献公开了一种基于多组学数据的复发转移分析模型建立方法及系统,该方法对来自不同组学的数据源进行归一化处理、比较分析,建立不同组间数据的关系,获取多组学数据,并对所述多组学数据中的组学特征数据进行提取;利用主成分分析法对所述组学特征数据进行降维处理;对降维处理后的所述组学特征数据进行数据增强,使得所述组学特征数据符合样本量要求;基于符合样本量要求的所述组学特征数据,采用集成学习算法构建复发转移分析模型。该技术方案通过对多组学数据进行系统化的组学特征数据的选择和降维处理,能够有效利用和筛选不同组学的数据,以对进行复发转移分析模型本文档来自技高网...

【技术保护点】

1.一种基于图神经网络的多组学可信整合的分类方法,其特征在于,其包括:

2.根据权利要求1所述的分类方法,其特征在于,所准备的样本的组学数据包含多种组学,每种组学由若干个经过预处理筛选的特征组成。

3.根据权利要求1或2所述的分类方法,其特征在于,在构建每种组学数据的特异性网络时通过加权基因共表达网络分析构建组学信息网络,并利用拓扑特征来构建组学数据的图网络,以实现表达数据和图网络的结合。

4.根据权利要求1~3任一项所述的分类方法,其特征在于,对于每种类型的组学数据,初始共表达图网络将被输入到图注意力神经网络层以实现对特征的加权和聚合,并通过包含输入层、输出层和3个中间层的神经网络完成各组学的初始分类。

5.根据权利要求1~4任一项所述的分类方法,其特征在于,在对组学特异性网络进行聚合更新时,利用多头注意力机制来稳定自我注意力的学习过程和/或利用多级图特征完全融合方法来利用内部特征之间的关系促进分子模块的信息聚合。

6.根据权利要求1~5任一项所述的分类方法,其特征在于,在计算每种组学的置信度,并对聚合后的特征进行增强时,采用真实类概率置信度标准来为各种组学获得预测置信度,其中,对于第m个组学数据集,引入一个具有参数θ(m)的置信度神经网络,以用于在训练数据上估计真实类概率置信度。

7.根据权利要求1~6任一项所述的分类方法,其特征在于,在融合多种组学的置信增强特征时采用联合后期混合集成技术,以利用组学级别的置信度机制来调节不同组学数据集之间的跨组学融合的贡献,从而解决跨组学分析的复杂性。

8.一种基于图神经网络的多组学可信整合的分类模型,其特征在于,其包括:

9.一种电子设备,包括存储器、处理器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,其特征在于,所述处理器执行程序时能够实现如权利要求1~7中任一项的方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时能够实现如权利要求1~7中任一项的方法的步骤。

...

【技术特征摘要】

1.一种基于图神经网络的多组学可信整合的分类方法,其特征在于,其包括:

2.根据权利要求1所述的分类方法,其特征在于,所准备的样本的组学数据包含多种组学,每种组学由若干个经过预处理筛选的特征组成。

3.根据权利要求1或2所述的分类方法,其特征在于,在构建每种组学数据的特异性网络时通过加权基因共表达网络分析构建组学信息网络,并利用拓扑特征来构建组学数据的图网络,以实现表达数据和图网络的结合。

4.根据权利要求1~3任一项所述的分类方法,其特征在于,对于每种类型的组学数据,初始共表达图网络将被输入到图注意力神经网络层以实现对特征的加权和聚合,并通过包含输入层、输出层和3个中间层的神经网络完成各组学的初始分类。

5.根据权利要求1~4任一项所述的分类方法,其特征在于,在对组学特异性网络进行聚合更新时,利用多头注意力机制来稳定自我注意力的学习过程和/或利用多级图特征完全融合方法来利用内部特征之间的关系促进分子模块的信息聚合。

6.根据权利要求1~5任...

【专利技术属性】
技术研发人员:姚晓辉丛山罗昊燃梁洪贾淼袁浚博
申请(专利权)人:青岛哈尔滨工程大学创新发展中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1