System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 新抗原异质数据整合方法及装置、设备、存储介质制造方法及图纸_技高网

新抗原异质数据整合方法及装置、设备、存储介质制造方法及图纸

技术编号:40362135 阅读:5 留言:0更新日期:2024-02-09 14:49
本发明专利技术属于生物信息学技术领域,公开了一种新抗原异质数据整合方法及装置、设备、存储介质,通过获取完整特征的样本数据预处理,并随机删除部分特征值,以及标记各个特征是否缺失特征值的真实标签,对生成对抗网络进行训练获得特征填充模型;在应用中,将未包括全部预设特征的新抗原异质数据确定为特征值缺失的待处理数据,生成目标掩码向量,输入特征填充模型进行填充,从而可以充分考虑样本特征数据中缺失特征与该样本其它完整特征的内部关联,基于生成对抗网络进行相互对抗训练以学习特征数值分布,实现对特征值缺失的样本进行填充使其成为完整的真实样本,提高样本数据量,使得填充后的样本更加真实,提升数据集整体可用的真实数据量。

【技术实现步骤摘要】

本专利技术属于生物信息学,具体涉及一种基于人工智能的新抗原异质数据整合方法及装置、设备、存储介质


技术介绍

1、新抗原疫苗通过增强癌症特异性细胞毒性t细胞而成为一种有前景的癌症免疫疗法。新抗原疫苗的开发通常是通过肿瘤新抗原(neoantigen)的计算预测来启动的,其准确性极大地影响疫苗的功效。肿瘤新抗原作为免疫治疗的理想靶标,是由肿瘤细胞突变基因编码的新生抗原,主要由基因点突变、删除突变、基因融合等产生的与正常细胞表达的蛋白不一样的新的异常蛋白。这些蛋白经过酶解之后形成的多肽片段,作为抗原递呈给t细胞,可促使t细胞变为特异性地识别肿瘤新抗原的成熟活化t细胞,并使这些活化的t细胞数量增殖。

2、基于机器学习的新抗原预测计算模型的瓶颈之一在于候选新抗原的实验验证免疫原性结果的可用性,目前新抗原免疫原性验证数据相对稀缺,只有数百种新抗原已被各种独立研究验证为具有免疫原性。此外,不同研究机构和公司使用的特征存在很大程度的不一致,合并不同数据集进行新抗原预测模型训练时,会出现大量的特征缺失值。例如,由于无法获得原始测序数据,许多生物学特征(例如vaf和基因表达)的值无法获得。而对于特征值缺失的样本,通常舍弃不用,因此导致新抗原预测模型的训练数据量较少。

3、传统方式中直接产生“人工”假样本从而丰富数据集、提升数据量,但是该现有方法通过生成假样本以丰富数据集,没有考虑到样本的多个特征值之间的内部关联,因此生成的样本真实性不够,导致数据集整体可用的真实数据量较少。


技术实现思路</p>

1、本专利技术的目的在于提供一种新抗原异质数据整合方法及装置、设备、存储介质,可以对特征值缺失的样本进行特征值填充使其成为完整的真实样本,从而提高样本数据量,同时使得填充后的样本更加真实,可以提升数据集整体可用的真实数据量。

2、本专利技术第一方面公开一种新抗原异质数据整合方法,包括:

3、获取完整特征的原始样本数据进行预处理以获得第一特征向量;

4、随机删除所述第一特征向量中部分特征值,获得第二特征向量;

5、标记所述第二特征向量中各个特征的真实标签,所述真实标签用于表示特征是否缺失特征值;

6、根据所述第二特征向量和所述真实标签,对生成对抗网络进行训练获得特征填充模型;

7、获取多个新抗原异质数据,对所述新抗原异质数据进行规范化处理,获得每个新抗原异质数据的初始特征向量;其中,各个新抗原异质数据的初始特征向量所包括的特征不完全相同;

8、将未包括全部预设特征的新抗原异质数据确定为特征值缺失的待处理数据,根据全部预设特征与初始特征向量,生成待处理数据的目标掩码向量;

9、将待处理数据的初始特征向量和目标掩码向量输入所述特征填充模型,以获得待处理数据的目标特征向量。

10、在一些实施例中,标记所述第二特征向量中各个特征的真实标签,包括:

11、将所述第二特征向量中特征值缺失的特征标记为负例特征,以及将具备特征值的特征标记为正例特征,以获得所述第二特征向量中各个特征的真实标签。

12、在一些实施例中,根据所述第二特征向量和所述真实标签,对生成对抗网络进行训练获得特征填充模型,包括:

13、将所述第二特征向量输入生成对抗网络的生成器,以使所述生成器根据所述真实标签对所述第二特征向量中缺失特征值的特征进行填充,以获得填充特征向量;

14、将所述填充特征向量输入生成对抗网络的判别器,以使所述判别器预测所述填充特征向量中各个特征的预测标签;所述预测标签用于表示特征值是已知的特征值还是填充值;

15、根据所述预测标签和所述真实标签,对所述生成器和所述判别器进行交替训练,获得特征填充模型。

16、在一些实施例中,所述生成器包括编码器、解码器和还原模块,所述编码器用于将所述第二特征向量映射至低维空间获得低维特征向量,所述解码器用于将低维空间的所述低维特征向量逐层还原回原始空间获得第三特征向量,所述还原模块用于根据所述真实标签将所述第三特征向量中正例特征对应的填充值还原为已知的特征值,获得填充特征向量。

17、在一些实施例中,所述判别器包括多个线性层和一个一维卷积模块,多个所述线性层用于对所述填充特征向量的维度进行非线性转换,所述一维卷积模块用于生成所述填充特征向量中各个特征的真实度评分,根据所述真实度评分映射得到所述填充特征向量中各个特征的预测标签。

18、本专利技术第二方面公开一种新抗原异质数据整合装置,包括:

19、预处理单元,用于获取完整特征的原始样本数据进行预处理以获得第一特征向量;

20、删除单元,用于随机删除所述第一特征向量中部分特征值,获得第二特征向量;

21、标记单元,用于标记所述第二特征向量中各个特征的真实标签,所述真实标签用于表示特征是否缺失特征值;

22、训练单元,用于根据所述第二特征向量和所述真实标签,对生成对抗网络进行训练获得特征填充模型;

23、获取单元,用于获取多个新抗原异质数据,对所述新抗原异质数据进行规范化处理,获得每个新抗原异质数据的初始特征向量;其中,各个新抗原异质数据的初始特征向量所包括的特征不完全相同;

24、掩码生成单元,用于将未包括全部预设特征的新抗原异质数据确定为特征值缺失的待处理数据,根据全部预设特征与初始特征向量,生成待处理数据的目标掩码向量;

25、填充单元,用于将待处理数据的初始特征向量和目标掩码向量输入所述特征填充模型,以获得待处理数据的目标特征向量。

26、在一些实施例中,所述标记单元,具体用于将所述第二特征向量中特征值缺失的特征标记为负例特征,以及将具备特征值的特征标记为正例特征,以获得所述第二特征向量中各个特征的真实标签。

27、在一些实施例中,所述训练单元包括:

28、生成子单元,用于将所述第二特征向量输入生成对抗网络的生成器,以使所述生成器根据所述真实标签对所述第二特征向量中缺失特征值的特征进行填充,以获得填充特征向量;

29、判别子单元,用于将所述填充特征向量输入生成对抗网络的判别器,以使所述判别器预测所述填充特征向量中各个特征的预测标签;所述预测标签用于表示特征值是已知的特征值还是填充值;

30、优化子单元,用于根据所述预测标签和所述真实标签,对所述生成器和所述判别器进行交替训练,获得特征填充模型。

31、本专利技术第三方面公开一种电子设备,包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行第一方面公开的新抗原异质数据整合方法。

32、本专利技术第四方面公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行第一方面公开的新抗原异质数据整合方法。

33、本专利技术的有益效果在于,通过获取完整特征的原始样本文档来自技高网...

【技术保护点】

1.新抗原异质数据整合方法,其特征在于,包括:

2.如权利要求1所述的新抗原异质数据整合方法,其特征在于,标记所述第二特征向量中各个特征的真实标签,包括:

3.如权利要求1或2所述的新抗原异质数据整合方法,其特征在于,根据所述第二特征向量和所述真实标签,对生成对抗网络进行训练获得特征填充模型,包括:

4.如权利要求3所述的新抗原异质数据整合方法,其特征在于,所述生成器包括编码器、解码器和还原模块,所述编码器用于将所述第二特征向量映射至低维空间获得低维特征向量,所述解码器用于将低维空间的所述低维特征向量逐层还原回原始空间获得第三特征向量,所述还原模块用于根据所述真实标签将所述第三特征向量中正例特征对应的填充值还原为已知的特征值,获得填充特征向量。

5.如权利要求3所述的新抗原异质数据整合方法,其特征在于,所述判别器包括多个线性层和一个一维卷积模块,多个所述线性层用于对所述填充特征向量的维度进行非线性转换,所述一维卷积模块用于生成所述填充特征向量中各个特征的真实度评分,根据所述真实度评分映射得到所述填充特征向量中各个特征的预测标签。p>

6.新抗原异质数据整合装置,其特征在于,包括:

7.如权利要求6所述的新抗原异质数据整合装置,其特征在于,所述标记单元,具体用于将所述第二特征向量中特征值缺失的特征标记为负例特征,以及将具备特征值的特征标记为正例特征,以获得所述第二特征向量中各个特征的真实标签。

8.如权利要求6或7所述的新抗原异质数据整合装置,其特征在于,所述训练单元包括:

9.电子设备,其特征在于,包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至5任一项所述的新抗原异质数据整合方法。

10.计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至5任一项所述的新抗原异质数据整合方法。

...

【技术特征摘要】

1.新抗原异质数据整合方法,其特征在于,包括:

2.如权利要求1所述的新抗原异质数据整合方法,其特征在于,标记所述第二特征向量中各个特征的真实标签,包括:

3.如权利要求1或2所述的新抗原异质数据整合方法,其特征在于,根据所述第二特征向量和所述真实标签,对生成对抗网络进行训练获得特征填充模型,包括:

4.如权利要求3所述的新抗原异质数据整合方法,其特征在于,所述生成器包括编码器、解码器和还原模块,所述编码器用于将所述第二特征向量映射至低维空间获得低维特征向量,所述解码器用于将低维空间的所述低维特征向量逐层还原回原始空间获得第三特征向量,所述还原模块用于根据所述真实标签将所述第三特征向量中正例特征对应的填充值还原为已知的特征值,获得填充特征向量。

5.如权利要求3所述的新抗原异质数据整合方法,其特征在于,所述判别器包括多个线性层和一个一维卷积模块,多个所述线性层用于对所述填充特征向量的维度进行非线性转换,所述一维卷积模块用...

【专利技术属性】
技术研发人员:万季叶一林沈一鸣汪健赵钊潘有东王弈
申请(专利权)人:深圳新合睿恩生物医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1