基于分段标注的肿瘤免疫靶点确定方法技术

技术编号:37409479 阅读:11 留言:0更新日期:2023-04-30 09:35
本申请公开了一种基于分段标注的肿瘤免疫靶点确定方法,其通过基于自然语义理解的人工智能模型,将基因序列看作为文本序列,通过对其分段标注来确定每个基因读段属于肿瘤免疫靶点的概率,以确定基因序列中的肿瘤免疫靶点。点。点。

【技术实现步骤摘要】
基于分段标注的肿瘤免疫靶点确定方法


[0001]本申请涉及计算生物领域领域,且更为具体地,涉及一种基于分段标注的肿瘤免疫靶点确定方法。
[0002]技术背景近年来,随着抗体制备等相关技术的成熟,免疫肿瘤(immuno

oncology, I

O)治疗发展迅速,已经成为继手术、放疗、化疗、靶向治疗后癌症的另一有效治疗手段。I

O治疗的目标是启动或重启患者的癌症

肿瘤循环,放大免疫效应,但不造成无限制的自身免疫应答。最有效的I

O治疗方案可能是选择性针对每例患者的限速步骤进行治疗。
[0003]在对患者进行治疗时,前提条件是在基因层面确定肿瘤免疫靶点,也就是,在分子层面确定细胞的基因序列中的肿瘤免疫靶点。传统的方法是通过大量的临床试验来进行肿瘤免疫靶点确定,但这种方法不仅耗时耗力,而且会耗费巨量的经济成本,一般消费者无法承受。
[0004]近年来,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。此外,深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域,也展现出了接近甚至超越人类的水平。
[0005]深度学习以及神经网络的发展为肿瘤免疫靶点确定提供了新的解决思路和方案。

技术实现思路

[0006]为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于分段标注的肿瘤免疫靶点确定方法,其通过基于自然语义理解的人工智能模型,将基因序列看作为文本序列,通过对其分段标注来确定每个基因读段属于肿瘤免疫靶点的概率,以确定基因序列中的肿瘤免疫靶点。
[0007]根据本申请的一个方面,提供了一种基于分段标注的肿瘤免疫靶点确定方法,其包括:获取待确定肿瘤免疫靶点的基因序列;将所述基因序列划分为多个分段以获得多个基因读段数据;将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量;分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量;计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵;将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵;将所述多个校正后基因读段特征向量排列为基因读段特征矩阵;将所述余弦相似性特征矩阵与所述基因读段特征矩阵通过图神经网络以获得基
因语义拓扑特征矩阵;将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量;以及将每个所述基因语义拓扑特征向量通过分类器以获得分类结果,所述分类结果表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值。
[0008]在上述基于分段标注的肿瘤免疫靶点确定方法中,所述将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量,包括:分别将所述多个基因读段数据中的ATCG碱基序列进行独热编码,以将所述多个基因读段数据中的ATCG碱基序列分别转化为输入向量以获得输入向量的序列;以及,使用所述基于转换器的上下文编码器的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个基因读段特征向量。
[0009]在上述基于分段标注的肿瘤免疫靶点确定方法中,所述分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量,包括:以如下公式分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到所述多个校正后基因读段特征向量;其中,所述公式为:其中,表示所述多个基因读段特征向量中各个基因读段特征向量,和分别表示所述多个基因读段特征向量中各个基因读段特征向量的均值和方差,且是所述多个基因读段特征向量中各个基因读段特征向量的长度,是以2为底的对数,且是权重超参数。
[0010]在上述基于分段标注的肿瘤免疫靶点确定方法中,所述计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵,包括:以如下公式来计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到多个余弦相似性;其中,所述公式为:其中分别表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量,分别表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量的各个位置的特征值,表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量之间的余弦相似性;以及,将所述多个余弦相似性进行二维排列以得到所述余弦相似性矩阵。
[0011]在上述基于分段标注的肿瘤免疫靶点确定方法中,所述将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵,包括:使用所述卷积神经
网络的各层在层的正向传递中分别对输入数据进行:对所述输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的全局均值池化以得到池化特征矩阵;以及,对所述池化特征矩阵进行非线性激活处理以得到激活特征矩阵;其中,所述深度卷积神经网络的最后一层的输出为所述余弦相似性特征矩阵。
[0012]在上述基于分段标注的肿瘤免疫靶点确定方法中,所述将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量,包括:将所述基因语义拓扑特征矩阵进行基于行向量或列向量的拆分以得到所述多个基因语义拓扑特征向量。
[0013]在上述基于分段标注的肿瘤免疫靶点确定方法中,所述将每个所述基因语义拓扑特征向量通过分类器以获得分类结果,包括:使用所述分类器以如下公式对所述基因语义拓扑特征向量进行处理以获得所述分类结果,其中,所述公式为:其中,到为权重矩阵,到为偏置向量,为所述基因语义拓扑特征向量。
[0014]根据本申请的另一方面,提供了一种基于分段标注的肿瘤免疫靶点确定系统,包括:基因序列获取单元,用于获取待确定肿瘤免疫靶点的基因序列;分段单元,用于将所述基因序列划分为多个分段以获得多个基因读段数据;全局特征提取单元,用于将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量;特征值校正单元,用于分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量;余弦相似性矩阵生成单元,用于计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵;余弦相似性特征矩阵生成单元,用于将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵;节点排列单元,用于将所述多个校正后基因读段特征向量排列为基因读段特征矩阵;基因语义拓扑特征矩阵生成单元,用于将所述余弦相似性特征矩阵与所述基因读段特征矩阵通过图神经网络以获得基因语义拓扑特征矩阵;基因语义拓扑特征向量拆分单元,用于将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分段标注的肿瘤免疫靶点确定方法,其特征在于,包括:获取待确定肿瘤免疫靶点的基因序列;将所述基因序列划分为多个分段以获得多个基因读段数据;将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量;分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量;计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵;将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵;将所述多个校正后基因读段特征向量排列为基因读段特征矩阵;将所述余弦相似性特征矩阵与所述基因读段特征矩阵通过图神经网络以获得基因语义拓扑特征矩阵;将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量;以及将每个所述基因语义拓扑特征向量通过分类器以获得分类结果,所述分类结果表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值。2.根据权利要求1所述的基于分段标注的肿瘤免疫靶点确定方法,其特征在于,所述将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量,包括:分别将所述多个基因读段数据中的ATCG碱基序列进行独热编码,以将所述多个基因读段数据中的ATCG碱基序列分别转化为输入向量以获得输入向量的序列;以及使用所述基于转换器的上下文编码器的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个基因读段特征向量。3.根据权利要求2所述的基于分段标注的肿瘤免疫靶点确定方法,其特征在于,所述分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量,包括:以如下公式分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到所述多个校正后基因读段特征向量;其中,所述公式为:其中,v
i
表示所述多个基因读段特征向量中各个基因读段特征向量,μ和σ分别表示所述多个基因读段特征向量中各个基因读段特征向量的均值和方差,且L是所述多个基因读段特征向量中各个基因读段特征向量的长度,log是以2为底的对数,且α是权重超参数。4.根据权利要求3所述的基于分段标注的肿瘤免疫靶点确定方法...

【专利技术属性】
技术研发人员:袁红陈俊郭凌敏李春杨华丽金佳丽
申请(专利权)人:杭州美赛生物医药科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1