一种细胞特异性合成致死对预测方法、装置、设备和介质制造方法及图纸

技术编号:38236806 阅读:10 留言:0更新日期:2023-07-25 18:01
本发明专利技术公开了一种细胞特异性合成致死对预测方法、装置、设备和介质。该方法包括:对目标细胞系的特定组学数据进行预处理,获得目标细胞系的特异性融合特征,该特定组学数据包含有多种能够表征细胞特异性的组学数据;将该特异性融合特征输入预先训练好的合成致死对预测模型,输出初步预测结果,该初步预测结果包含目标细胞系中各基因对为合成致死对的概率;基于初步预测结果筛选出目标细胞系中的特异性合成致死对。本发明专利技术能够实现合成致死对预测的高可靠性。的高可靠性。的高可靠性。

【技术实现步骤摘要】
一种细胞特异性合成致死对预测方法、装置、设备和介质


[0001]本专利技术涉及人工智能
,具体涉及一种细胞特异性合成致死对预测方法、预测装置、计算机设备和计算机可读存储介质。

技术介绍

[0002]精准医疗的靶点主要集中在癌症中反复发生的肿瘤驱动基因上,然而由于一些靶点自身结构不可成药和一些肿瘤驱动基因为抑癌基因不能直接靶向,使得肿瘤治疗受到限制。基因遗传中的合成致死(Synthetic lethality,SL)理念将肿瘤单基因依赖性拓展到“基因对”,即将肿瘤特异性靶点由少量的肿瘤特异性基因拓展至额外的脆弱性基因,为精准医疗提供了探索空间。
[0003]相关技术中,合成致死对的发现是通过遗传筛选完成的,但该筛选过程昂贵、费力且耗时。近几年出现了使用机器学习模型预测合成致死对的趋势。然而,这些预测模型往往采用混合数据作为输入,即不论是哪个细胞系的合成致死对均笼统的收入数据库,同时用于合成致死对预测的训练和测试,完全忽视了细胞的背景特异性问题,该背景特异性问题是指同一个合成致死对在一个细胞系起作用,但在另一个细胞系完全没有效果,导致现有预测过程可靠性差,预测出的合成致死对可用性低。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供了一种细胞特异性合成致死对预测方法、预测装置、计算机设备和计算机可读存储介质,以解决现有合成致死对预测过程中未考虑细胞特异性而导致的预测过程可靠性差的问题。
[0005]根据第一方面,本专利技术实施例提供了一种细胞特异性合成致死对预测方法,该方法包括:对目标细胞系的特定组学数据进行预处理,获得所述目标细胞系的特异性融合特征;其中,所述特定组学数据包含有多种能够表征细胞特异性的组学数据;将所述特异性融合特征输入预先训练好的合成致死对预测模型,输出初步预测结果;所述初步预测结果包含所述目标细胞系中各基因对为合成致死对的概率;基于所述初步预测结果筛选出所述目标细胞系中的特异性合成致死对。
[0006]在一些实施例中,所述预处理,包括:将所述特定组学数据包含的多个组学数据分别转换为对应的图结构数据;将每个所述组学数据对应的所述图结构数据分别输入预定层的图卷积神经网络,以获得每个所述组学数据对应的特征向量;基于多头注意力机制将多个所述组学数据对应的特征向量进行融合处理,获得特异性融合特征。
[0007]在一些实施例中,在对目标细胞系的特定组学数据进行预处理,获得所述目标细胞系的特异性融合特征之前,还包括:获取多个预设细胞系的合成致死对标签数据;基于多个所述预设细胞系的特定组学数据和对应的合成致死对标签数据进行模型训练,以获得所述合成致死对预测模型。
[0008]在一些实施例中,所述基于多个所述预设细胞系的特定组学数据和对应的合成致
死对标签数据进行模型训练,以获得所述合成致死对预测模型的步骤,包括:针对每个预设细胞系,将所述预设细胞系的特定组学数据包含的多个组学数据分别转换为对应的图结构数据;将预设细胞系的组学数据对应的所述图结构数据分别输入预定层的图卷积神经网络,以获得每个所述组学数据对应的特征向量;基于多头注意力机制将多个所述组学数据对应的特征向量进行融合处理,获得多个所述预设细胞系的特异性融合特征;针对每一个所述预设细胞系的特异性融合特征,将所述特异性融合特征与对应的所述合成致死对标签数据进行拼接处理,以生成训练特征集;从所述训练特征集中选择训练特征输入全连接神经网络,获得训练输出结果;确定所述训练输出结果的损失函数;所述训练输出结果包括所述预设细胞系中各基因对为合成致死对的概率;在初次确定所述损失函数的情况下,或者在本次确定的损失函数比上一次确定的损失函数小的情况下,基于当前确定的损失函数进行反向传播以更新模型参数,并返回所述将预设细胞系的组学数据对应的所述图结构数据分别输入预定层的图卷积神经网络,以获得每个所述组学数据对应的特征向量的步骤;所述模型参数包括所述图卷积神经网络的参数和所述全连接神经网络的参数;在当前确定的所述损失函数大于或等于上一次确定的损失函数的情况下,选择输出结果的损失函数最小时的全连接神经网络作为所述合成致死对预测模型。
[0009]在一些实施例中,所述基于所述初步预测结果筛选出所述目标细胞系中的特异性合成致死对的步骤,包括:根据所述初步预测结果确定候选合成致死对集合;针对候选合成致死对集合中的每一个候选合成致死对,获取所述候选合成致死对扰动后在多个细胞系中的显著影响基因集;所述多个细胞系包含所述目标细胞系;对每个细胞系中的所述显著影响基因集进行基因富集分析,生成基因富集结果;基于所述基因富集结果判断所述候选合成致死对是否为所述目标细胞系中的特异性合成致死对。
[0010]在一些实施例中,所述在基于所述初步预测结果筛选出所述目标细胞系中的特异性合成致死对之后,还包括:在筛选出所述目标细胞系中的特异性合成致死对的情况下,根据与所述目标细胞系和所述特异性合成致死对相关的所述基因富集结果,对所述特异性合成致死对进行机理追踪处理。
[0011]在一些实施例中,所述特定组学数据包括旁系同源基因数据、互斥突变基因数据、基因表达数据、基因效应得分数据和基因扰动特征数据中的一种或多种。
[0012]根据第二方面,本专利技术实施例提供了一种细胞特异性合成致死对预测装置,该装置包括:预处理单元,对目标细胞系的特定组学数据进行预处理,获得所述目标细胞系的特异性融合特征;其中,所述特定组学数据包含有多种能够表征细胞特异性的组学数据;预测单元,将所述特异性融合特征输入预先训练好的合成致死对预测模型,输出初步预测结果;所述初步预测结果包含所述目标细胞系中各基因对为合成致死对的概率;分析单元,用于基于所述初步预测结果筛选出所述目标细胞系中的特异性合成致死对。
[0013]根据第三方面,本专利技术实施例提供了一种计算机设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如本专利技术第一方面中任一项所述的细胞特异性合成致死对预测方法的步骤。
[0014]根据第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如本专利技术第一方面中任一项所
述的细胞特异性合成致死对预测方法的步骤。
[0015]本专利技术技术方案,具有如下优点。
[0016]本专利技术提供一种细胞特异性合成致死对预测方法、装置、设备和介质,首先对目标细胞系的特定组学数据进行预处理,获得目标细胞系的特异性融合特征,其中,特定组学数据包含有多种能够表征细胞特异性的组学数据;然后将该特异性融合特征输入预先训练好的合成致死对预测模型,输出初步预测结果,该初步预测结果包含目标细胞系中各基因对为合成致死对的概率;最后基于初步预测结果筛选出目标细胞系中的特异性合成致死对,由于该特异性合成致死对能够只引发该目标细胞系的目标响应,因此本专利技术能够实现合成致死对预测的高可靠性。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种细胞特异性合成致死对预测方法,其特征在于,所述方法包括:对目标细胞系的特定组学数据进行预处理,获得所述目标细胞系的特异性融合特征;其中,所述特定组学数据包含有多种能够表征细胞特异性的组学数据;将所述特异性融合特征输入预先训练好的合成致死对预测模型,输出初步预测结果;所述初步预测结果包含所述目标细胞系中各基因对为合成致死对的概率;基于所述初步预测结果筛选出所述目标细胞系中的特异性合成致死对。2.根据权利要求1所述的方法,其特征在于,所述预处理,包括:将所述特定组学数据包含的多个组学数据分别转换为对应的图结构数据;将每个所述组学数据对应的所述图结构数据分别输入预定层的图卷积神经网络,以获得每个所述组学数据对应的特征向量;基于多头注意力机制将多个所述组学数据对应的特征向量进行融合处理,获得特异性融合特征。3.根据权利要求1所述的方法,其特征在于,在对目标细胞系的特定组学数据进行预处理,获得所述目标细胞系的特异性融合特征之前,还包括:获取多个预设细胞系的合成致死对标签数据;基于多个所述预设细胞系的特定组学数据和对应的合成致死对标签数据进行模型训练,以获得所述合成致死对预测模型。4.根据权利要求3所述的方法,其特征在于,所述基于多个所述预设细胞系的特定组学数据和对应的合成致死对标签数据进行模型训练,以获得所述合成致死对预测模型的步骤,包括:针对每个预设细胞系,将所述预设细胞系的特定组学数据包含的多个组学数据分别转换为对应的图结构数据;将预设细胞系的组学数据对应的所述图结构数据分别输入预定层的图卷积神经网络,以获得每个所述组学数据对应的特征向量;基于多头注意力机制将多个所述组学数据对应的特征向量进行融合处理,获得多个所述预设细胞系的特异性融合特征;针对每一个所述预设细胞系的特异性融合特征,将所述特异性融合特征与对应的所述合成致死对标签数据进行拼接处理,以生成训练特征集;从所述训练特征集中选择训练特征输入全连接神经网络,获得训练输出结果;确定所述训练输出结果的损失函数;所述训练输出结果包括所述预设细胞系中各基因对为合成致死对的概率;在初次确定所述损失函数的情况下,或者在本次确定的损失函数比上一次确定的损失函数小的情况下,基于当前确定的损失函数进行反向传播以更新模型参数,并返回所述将预设细胞系的组学数据对应的所述图结构数据分别输入预定层的图卷积神经网络,以获得每个所述组学数据对应的特征向量的步骤;所述模型参数包括所...

【专利技术属性】
技术研发人员:濮梦辰辛玉翠魏兰颖郑炜圣彭公信李晓荣成凯阳张应生
申请(专利权)人:北京望石智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1