System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种肿瘤细胞通信预测方法技术_技高网

一种肿瘤细胞通信预测方法技术

技术编号:40598031 阅读:3 留言:0更新日期:2024-03-12 22:01
本发明专利技术公开了一种肿瘤细胞通信预测方法,包括以下步骤:特征提取与数据处理,配体‑受体相互作用预测,构建基于图自编码器与深度神经网络的集成模型,根据配体‑受体对的生物特征进行编码和解码操作得到配体‑受体相互作用概率,以此进行分类预测,细胞通信预测,对人类黑色素瘤组织和人类结直肠癌组织细胞通信可视化,本发明专利技术是基于图自编码器的配体‑受体相互作用预测模型与传统的深度神经网络模型集成支持用户使用个人收集的数据集进行模型训练,并且图神经网络能够很好的实现配体‑受体关联预测,性能优势明显;且本专利结合表达乘积法和表达阈值法,能够很好的考虑多种情况,较为全面。

【技术实现步骤摘要】

本专利技术涉及系统生物信息学领域,特别是涉及一种肿瘤细胞通信预测方法


技术介绍

1、癌症是全球公共卫生领域的重要问题,也是中国居民死亡的主要原因之一。其中,黑色素瘤是一种由黑色素细胞恶变产生的皮肤恶性肿瘤。据世界卫生组织数据统计,全世界每年约有132,000例新诊断的黑色素瘤患者,且发病率在世界范围内均呈逐年上升趋势。虽然黑色素瘤只占皮肤癌总体的1%,但由于其恶性程度高、侵袭性强,是死亡率最高的皮肤癌类型。尽管中国黑色素瘤的发病率低于欧美等西方国家,但依旧不容忽视,每年新增黑色素瘤患者约2万例。此外,结直肠癌是常见的消化道恶性肿瘤之一。数据显示,全球新发的结直肠癌病例约为188.1万例,占所有恶性肿瘤新发病例的10%,仅次于乳腺癌和肺癌,位居第3。此外,结直肠癌死亡病例约为91.6万人,占所有恶性肿瘤死亡病例的9.4%,仅次于肺癌,位居第2。据相关研究表明,未来15年全球结直肠癌负担将会增加60%,新发和死亡病例分别超过220万例和110万例。同时,我国的结直肠癌发病率和死亡率也呈逐年上升趋势。综上,探寻癌症治疗新手段刻不容缓。

2、就癌症而言,肿瘤微环境中的细胞通信能够通过不同的途径诱导癌症的发生和发展。研究表明,基于配体与受体的共表达,癌细胞和正常细胞以及癌细胞之间的相互作用可以诱导恶性肿瘤的生长。kumar等人的研究证实,肿瘤生长程度与某些特定配体-受体相互作用的活性存在强相关性。因此,为了解析癌症的发生、恶化、转移以及组织炎症的分子机制,并进一步设计抗癌药物和靶向治疗癌症,细胞通信机制的研究是至关重要的。</p>

3、目前的方法大多数情况下能够识别细胞通信,然而这些工具大多无法运用制定配体-受体数据集,并且细胞通信评估方案单一,使用模型落后或方法老旧。

4、公开号cn112466403b为的专利公开了一种细胞通讯分析方法及系统,该方法包括细胞通讯预测和配体-靶基因调控预测;细胞通讯预测包括配受体对表达丰度分析、配受体对数目分析、显著富集配受体对数目分析和细胞交互网络图构建;配体-靶基因调控预测包括配体活性分析和配体-靶基因调控潜力分析;本专利技术细胞通讯分析方法主要是描述细胞间的关联关系,利用cellphonedb软件基于单细胞基因表达量矩阵进行细胞通讯网络构建,利用nichenet软件基于配体-靶基因表达关系,分析配体活力以及配体对靶基因的调控潜力,该专利细胞通信评估方案单一。


技术实现思路

1、本专利技术为解决以上
技术介绍
中提到的问题,提供一种肿瘤细胞通信预测方法,以解决现有技术的问题。

2、本专利技术采用的技术方案是:

3、一种肿瘤细胞通信预测方法,包括以下步骤:

4、s1特征提取与数据处理:s1.1收集四个不同的配体-受体相互作用数据集,s1.2随后分别通过氨基酸组成法、二肽组成法、成分转移分布法、自相关描述符、共轭三联特征法以及拟序列顺序描述符对配体和受体的序列进行生物特征提取,s1.3使用主成分分析法进行特征降维;

5、s2配体-受体相互作用预测:构建基于图自编码器与深度神经网络的集成模型,根据配体-受体对的生物特征进行编码和解码操作得到配体-受体相互作用概率,以此进行分类预测;

6、s3细胞通信预测:s3.1基于肿瘤组织的单细胞转录组数据对已知及预测的配体-受体相互作用数据进行过滤,s3.2根据过滤后的数据和三种评分方法进行计算得到最终的细胞通信强度;

7、s4细胞通信可视化:结合单细胞测序数据进行肿瘤微环境下的细胞通信预测,通过热图、网络图刻画细胞通信强度并筛选排名前三的配体-受体相互作用对。

8、进一步地,所述步骤s1.2中,使po表示为一个具有n个氨基酸残基的蛋白质序列,即配体或受体序列,po={r1r2…ri…rn},其中ri表示po的第i个位置的氨基酸残基,标记i和j用于指示氨基酸在序列中的位置,r、s用于标记氨基酸类型,

9、所述氨基酸组成法是蛋白质中每种氨基酸类型的分数,氨基酸组成给出了20个特征,所有20种天然氨基酸的分数计算如公式所示:

10、

11、其中,nr是氨基酸类型d的编号,n是序列的长度;

12、所述二肽组成法具有400个特征,用公式定义为

13、

14、其中,nrs是由氨基酸类型r和s表示的二肽的数量;

15、所述自相关描述符是基于氨基酸属性沿序列的分布来定义自相关描述符,使用的氨基酸性质是各种类型的氨基酸指数,使用了三种类型的自相关描述符,如下所述在计算之前,所有的氨基酸指数都是集中和标准化的,即其中,是20种氨基酸性质的平均值,pr是氨基酸指数,且有

16、其中

17、所述成分转移分布法是根据氨基酸的属性将其分为三类,每个氨基酸按其所属的类别用指数1、2、3中的一个进行编码,使用的属性包括疏水性、归一化范德华体积极性和极化率,“成分”可由疏水性定义,

18、

19、其中,nr是编码序列中的r的数目,n是序列的长度;

20、转移描述符可以用公式计算为:

21、

22、其中,nrs、nsr分别为序列中编码为rs和sr的二肽的个数,n为序列长度;

23、分布描述符描述了序列中每个属性的分布,每个属性有5个描述符,它们是第一个残基在整个序列中的位置百分比,对于特定的编码类,分别为25%残基、50%残基、75%残基和100%残基;

24、所述共轭三联特征法基于氨基酸的分类提取蛋白质对的特征,将每个蛋白质序列表示为一个由氨基酸特征组成的向量空间,为了降低向量空间的维度,20个氨基酸根据它们的偶极子和侧链的体积被聚为几类;

25、所述拟序列顺序描述符是由20个氨基酸之间的距离矩阵得出的,排第d个的序列顺序耦合数可以被定义为:

26、

27、其中,di,i+d是i位和i+d位两个氨基酸之间的距离,maxlag是最大滞后期,蛋白质的长度必须不小于maxlag;

28、对于每种氨基酸类型,拟序列顺序描述符可以定义为:

29、

30、其中,fr是i型氨基酸的归一化发生率,w是加权系数(w=0.1),这些是前20个准序列顺序描述符,其他30个准序列序被定义为:

31、

32、进一步地,所述步骤s1.3在得到了配体和受体的特征表示向量后,进一步实施基于主成分分析的降维,并保留95%的信息,得到配体和受体的低维生物特征。

33、进一步地,步骤s2中所述图自编码器模型对配体-受体相互作用数据进行分类,所述图自编码器模型分类步骤包括:

34、s2.1通过线性变换矩阵将两类节点投影到同一向量空间中,以配体为例,将配体节点投影到特征空间:

35、

36、其中,ql表示配体节点的投影特征,tl表示其原始特征,表示将节点投影到k维空间的线性变换矩阵;受体节点以同种方式本文档来自技高网...

【技术保护点】

1.一种肿瘤细胞通信预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种肿瘤细胞通信预测方法,其特征在于,所述步骤S1.2中,使Po表示为一个具有N个氨基酸残基的蛋白质序列,即配体或受体序列,Po={R1R2…Ri…RN},其中Ri表示Po的第i个位置的氨基酸残基,标记i和j用于指示氨基酸在序列中的位置,r、s用于标记氨基酸类型,

3.根据权利要求1所述的一种肿瘤细胞通信预测方法,其特征在于,所述步骤S1.3在得到了配体和受体的特征表示向量后,进一步实施基于主成分分析的降维,并保留95%的信息,得到配体和受体的低维生物特征。

4.根据权利要求1所述的一种肿瘤细胞通信预测方法,其特征在于,步骤S2中所述图自编码器模型对配体-受体相互作用数据进行分类,所述图自编码器模型分类步骤包括:

5.根据权利要求1所述的一种肿瘤细胞通信预测方法,其特征在于,步骤S2中所述深度神经网络模型是根据已知的配体-受体相互作用对来对未知的配体-受体进行分类,该模型由一个输入层、多个隐藏层和一个输出层组成,

6.根据权利要求1所述的一种肿瘤细胞通信预测方法,其特征在于,步骤S2中S2.9集成模型在学习过程中,图自编码器和深度神经网络作为基预测器进行训练,并将它们的输出进行集成,以确定最终的分类结果,对于未知配体-受体对,设和分别表示其通过图自编码器和深度神经网络计算所得配体-受体相互作用概率,其最终概率可基于软投票策略进行评估:

7.根据权利要求1所述的一种肿瘤细胞通信预测方法,其特征在于,所述步骤S3.1具体步骤为根据单细胞测序数据对筛选出的已知配体-受体相互作用对进行过滤,如果某个配体-受体相互作用对中的配体或受体在单细胞测序数据的细胞中没有表达,则该配体-受体相互作用对被排除在相应的细胞通信中,然后将最终过滤的配体-受体相互作用对应用于细胞通信分析。

8.根据权利要求1所述的一种肿瘤细胞通信预测方法,其特征在于,所述步骤S3.2中将表达乘积法、表达阈值法、表达集成方法来预测细胞通信,步骤如下:

9.根据权利要求1所述的一种肿瘤细胞通信预测方法,其特征在于,为了预测黑色素瘤组织中的细胞通信,首先从GEO数据库下载相关的单细胞测序数据;然后,结合过滤后的配体-受体相互作用对和单细胞测序数据,建立与黑色素瘤相关的细胞通信网络;最后,进行了人类黑色素瘤组织中的细胞通信预测,发现巨噬细胞与人类黑色素瘤癌癌细胞的通信概率更高。

10.根据权利要求1所述的一种肿瘤细胞通信预测方法,其特征在于,为预测人类结直肠癌组织中的细胞通信,从GEO数据库下载相关的单细胞测序数据;结合过滤后的配体-受体相互作用和单细胞测序数据,建立与结直肠癌相关的细胞通信网络;最后,进行人类结直肠癌组织中的细胞通信预测,发现内皮细胞与人类结直肠癌癌细胞的通信概率更高。

...

【技术特征摘要】

1.一种肿瘤细胞通信预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种肿瘤细胞通信预测方法,其特征在于,所述步骤s1.2中,使po表示为一个具有n个氨基酸残基的蛋白质序列,即配体或受体序列,po={r1r2…ri…rn},其中ri表示po的第i个位置的氨基酸残基,标记i和j用于指示氨基酸在序列中的位置,r、s用于标记氨基酸类型,

3.根据权利要求1所述的一种肿瘤细胞通信预测方法,其特征在于,所述步骤s1.3在得到了配体和受体的特征表示向量后,进一步实施基于主成分分析的降维,并保留95%的信息,得到配体和受体的低维生物特征。

4.根据权利要求1所述的一种肿瘤细胞通信预测方法,其特征在于,步骤s2中所述图自编码器模型对配体-受体相互作用数据进行分类,所述图自编码器模型分类步骤包括:

5.根据权利要求1所述的一种肿瘤细胞通信预测方法,其特征在于,步骤s2中所述深度神经网络模型是根据已知的配体-受体相互作用对来对未知的配体-受体进行分类,该模型由一个输入层、多个隐藏层和一个输出层组成,

6.根据权利要求1所述的一种肿瘤细胞通信预测方法,其特征在于,步骤s2中s2.9集成模型在学习过程中,图自编码器和深度神经网络作为基预测器进行训练,并将它们的输出进行集成,以确定最终的分类结果,对于未知配体-受体对,设和分别表示其通过图自编码器和深度神经网络计算所得...

【专利技术属性】
技术研发人员:彭利红黄亮亮刘龙龙周立前
申请(专利权)人:湖南工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1