System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于残差图神经网络的多任务细胞分析方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>扬州大学专利>正文

一种基于残差图神经网络的多任务细胞分析方法及系统技术方案

技术编号:40263913 阅读:12 留言:0更新日期:2024-02-02 22:53
本发明专利技术公开了一种基于残差图神经网络的多任务细胞分析方法及系统,包括:对单细胞转录组数据进行归一化,从归一化后的数据中选出转录水平最高的前2000个基因,获得新的单细胞转录组数据;根据所述新的单细胞转录组数据,构建并训降噪自编码器,对原始的单细胞转录组数据降维,获得降维后的特征表示;使用所述降维后的特征表示构建邻接矩阵,构建残差图神经网络模型;连接所述图神经网络模型与所述降噪自编码器,构建双重自我监督模型并训练;根据所述双重自我监督模型,输出单细胞转录组数据的聚类结果、插补结果以及低维表示。本发明专利技术提供的方法及系统极大提高了网络抽取的特征鉴别性,提高各个单细胞分析任务的性能。

【技术实现步骤摘要】

本专利技术涉及生物信息学单细胞数据分析领域,具体为一种基于残差图神经网络的多任务细胞分析方法及系统


技术介绍

1、单细胞测序是一种新的测序技术可以测量单个细胞内的基因表达。通过对单细胞测序数据的分析,研究人员可以发现不同细胞类型、亚型和状态之间的差异,揭示基因调控网络、细胞通信机制,探索疾病机理等。因此对单细胞数据进行准确的分析有助于科学家能够更全面、精确地了解细胞的性质、功能和多样性。这项技术对于生物医学研究、医疗诊断和药物开发等领域都产生了深远的影响,有助于推动科学的进步和改善健康护理。具体来说,单细胞分析主要包括对单细胞转录组数据数据进行细胞类型聚类、基因插补与降维。但是由于单细胞转录组数据数据普遍存在的“dropout”现象以及噪声问题,设计准确的单细胞分析方法是一项具有挑战性的任务。

2、提高单细胞分析方法的关键在于从单细胞转录组数据数据中抽取强大的具有鉴别性的细胞特征表示。例如,isabella等人扩展了以前的方法,即层次聚类的显著性,提出了一种基于模型的假设检验方法,将显著性分析纳入到聚类算法中,并允许对聚类作为不同细胞群体的统计评估;george等人提出了一种基于低秩矩阵逼近的方法,可以填补单细胞转录组数据中的缺失值,同时将生物学上未表达的基因(真正的生物学零值)保持在零表达水平上;王等人提出了用于单细胞转录组数据数据的深度变分自编码器(vasc),这是一个深层次的多层生成模型,用于无监督的降维和可视化单细胞转录组数据数据。vasc可以明确地建模丢失事件并找到原始数据的非线性分层特征表示。

<p>3、虽然这些方法在各自的任务上取得了令人满意的结果,但是却忽视了各自任务之间的相关性。而最新的研究表明多任务学习在知识共享、降低过拟合、特征学习以及协同优化方面具有显著的优势,即同时进行多个任务的联合优化可以提高各个任务的性能。在这个背景下,开发出合适的多任务学习框架以及设计出适当的损失函数去平衡不同任务之间的权重,从而捕获任务之间的相关性,并最终提高各个任务的性能对于分析数据具有重要的意义。


技术实现思路

1、鉴于上述存在的问题,提出了本专利技术。

2、因此,本专利技术解决的技术问题是:

3、为解决上述技术问题,本专利技术提供如下技术方案:一种基于残差图神经网络的多任务细胞分析方法,包括:对单细胞转录组数据进行归一化,从归一化后的数据中选出转录水平最高的前2000个基因,获得新的单细胞转录组数据。

4、根据所述新的单细胞转录组数据,构建并训降噪自编码器,对原始的单细胞转录组数据降维,获得降维后的特征表示。

5、使用所述降维后的特征表示构建邻接矩阵,构建残差图神经网络模型。

6、连接所述图神经网络模型与所述降噪自编码器,构建双重自我监督模型并训练。

7、根据所述双重自我监督模型,输出单细胞转录组数据的聚类结果、插补结果以及低维表示。

8、作为本专利技术所述的基于残差图神经网络的多任务细胞分析方法的一种优选方案,其中:所述归一化包括,归一化程序为seurat标准的质控流程,获得新的单细胞转录组数据x。

9、作为本专利技术所述的基于残差图神经网络的多任务细胞分析方法的一种优选方案,其中:所述降噪自编码器包括,对x添加随机的高斯噪声xcorrupt,表示为:

10、xcorrupt=x+e(noise)

11、其中,e(noise)表示添加的高斯噪声,把xcorrupt输入到降噪自编码器中,对于降噪自编码器中编码器的第l层学习到的特征表示为:

12、

13、其中表示编码器的第l层的上一层学习到的特征,表示编码器中对应层的权重,表示编码器中对应层的偏置,σ()表示激活函数relu。

14、把解码成最后一层的输出记为降维后的特征e,解码器每一层的输出为:

15、

16、其中,表示解码器对应的权重,表示解码器对应的偏置,表示解码器的第l层的上一层的输出。

17、重构损失即mse损失为:

18、

19、其中,n表示细胞的数量,xi表示第i个细胞的原始数据,表示第i个细胞的重建数据。使用zinb作为降噪自编码器的降噪损失表示为:

20、

21、zinb(x|π,u,θ)=πδ0(x)+(1-π)nb(x|u,θ)

22、其中,u表示负二项分布的均值,θ表示负二项分布的离散度。π表示在零点处的概率质点的权重。δ0()表示狄拉克函数。

23、三个参数的矩阵形式表示为:

24、

25、

26、

27、去噪损失函数是zinb似然的负对数表示为:

28、ldenoise=-log(zinb(x|π,u,θ)

29、降噪自编码器的总的损失函数表示为:

30、lauto=lrestruction+ldenoise

31、其中,表示解码器的最后一层的输出,si表示超参数用于控制m值,diag()表示对角矩阵函数,exp()表示指数函数,sigmod()函数表示激活函数,wu表示u的矩阵权重,wθ表示θ的矩阵权重,wπ表示π的矩阵权重。

32、作为本专利技术所述的基于残差图神经网络的多任务细胞分析方法的一种优选方案,其中:所述邻接矩阵包括,使用所述降噪自编码器获得所述单细胞转录组数据的基因加权联合表示e,对于每一个细胞celli,使用e中的特征找到与celli最近的k个邻居,构建邻接矩阵表示为:

33、

34、其中,t为超参控制相似度的大小,xi表示第i个细胞的原始数据,xj表示第j个细胞的原始数据。

35、作为本专利技术所述的基于残差图神经网络的多任务细胞分析方法的一种优选方案,其中:所述残差图神经网络模型包括,把x输入到一个有256个隐藏单元的全连接神经网络中,得到z0:

36、z0=fc(x)

37、其中,fc()函数表示有256个隐藏单元的全连接神经网络的一层。

38、rgcn学习一个新的表示zl,zl使用以下卷积操作计算表示为:

39、

40、其中σ表示激活函数,wl-1表示残差图神经网络第l-1层的权重,zl-1表示残差图神经网络第l-1层的输出,al表示超参数,bl表示超参数,a表示邻接矩阵,i表示单位矩阵,表示标准化的邻接矩阵。

41、作为本专利技术所述的基于残差图神经网络的多任务细胞分析方法的一种优选方案,其中:所述双重自我监督模型包括,将降噪自编码器的解码器输出与残差图神经网络的输出用双重自我监督损失函数连接起来,使用student’st-distribution去计算细胞特征表示与聚类中心向量的相似度,所述聚类中心是用k-means算法对数据进行初始聚类获得的。

42、student’st-distribution的计算表示为:

43本文档来自技高网...

【技术保护点】

1.一种基于残差图神经网络的多任务细胞分析方法,其特征在于,包括:

2.如权利要求1所述的基于残差图神经网络的多任务细胞分析方法,其特征在于:所述归一化包括,归一化程序为SeuratSeurat标准的质控流程,获得新的单细胞转录组数据X。

3.如权利要求2所述的基于残差图神经网络的多任务细胞分析方法,其特征在于:所述降噪自编码器包括,对X添加随机的高斯噪声Xcorrupt,表示为:

4.如权利要求3所述的基于残差图神经网络的多任务细胞分析方法,其特征在于:所述邻接矩阵包括,使用所述降噪自编码器获得所述单细胞转录组数据的基因加权联合表示E,对于每一个细胞celli,使用E中的特征找到与celli最近的k个邻居,构建邻接矩阵表示为:

5.如权利要求4所述的基于残差图神经网络的多任务细胞分析方法,其特征在于:所述残差图神经网络模型包括,把X输入到一个有256个隐藏单元的全连接神经网络中,得到Z0:

6.如权利要求5所述的基于残差图神经网络的多任务细胞分析方法,其特征在于:所述双重自我监督模型包括,将降噪自编码器的解码器输出与残差图神经网络的输出用双重自我监督损失函数连接起来,使用Student’st-distribution去计算细胞特征表示与聚类中心向量的相似度,所述聚类中心是用K-means算法对数据进行初始聚类获得的;

7.如权利要求6所述的基于残差图神经网络的多任务细胞分析方法,其特征在于:所述输出单细胞转录组数据的聚类结果、插补结果以及低维表示包括,所述残差图神经网络的输出结果为聚类结果,所述降噪自编码器的编码器输出结果为基因插补结果,所述降噪自编码器的解码器输出结果为特征的低维嵌入表示。

8.一种采用如权利要求1-7任一所述方法的一种基于残差图神经网络的多任务细胞分析系统,其特征在于:

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种基于残差图神经网络的多任务细胞分析方法,其特征在于,包括:

2.如权利要求1所述的基于残差图神经网络的多任务细胞分析方法,其特征在于:所述归一化包括,归一化程序为seuratseurat标准的质控流程,获得新的单细胞转录组数据x。

3.如权利要求2所述的基于残差图神经网络的多任务细胞分析方法,其特征在于:所述降噪自编码器包括,对x添加随机的高斯噪声xcorrupt,表示为:

4.如权利要求3所述的基于残差图神经网络的多任务细胞分析方法,其特征在于:所述邻接矩阵包括,使用所述降噪自编码器获得所述单细胞转录组数据的基因加权联合表示e,对于每一个细胞celli,使用e中的特征找到与celli最近的k个邻居,构建邻接矩阵表示为:

5.如权利要求4所述的基于残差图神经网络的多任务细胞分析方法,其特征在于:所述残差图神经网络模型包括,把x输入到一个有256个隐藏单元的全连接神经网络中,得到z0:

6.如权利要求5所述的基于残差图神经网络的多任务细胞分析方法,其特征在于:所述双重自我监督模型包...

【专利技术属性】
技术研发人员:刘岩夏雨
申请(专利权)人:扬州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1