用于增强变异体识别性能和表征变异体表达状态的组合DNA-RNA测序分析的方法和系统技术方案

技术编号:34082862 阅读:16 留言:0更新日期:2022-07-11 19:17
一种用于表征从基因组样品中鉴定的变异体的变异体表达状态的方法(100),包括:(i)获取(110)基因组样品的DNA测序数据;(ii)获取(110)基因组样品的RNA测序数据,其中所获取的RNA测序数据还包括每个变异体的表达数据;(iii)将比对DNA和RNA测序数据合并(130)成合并比对;(iv)相对于参考基因组来鉴定(140)多个变异体以生成一组变异体;(v)表征(150)至少多个变异体中的每个变异体的RNA编辑和/或表达状态,其中表达状态包括多个等位基因特异性表达分类中的一个等位基因特异性表达分类,多个等位基因特异性表达分类包括变异体的替代等位基因的表达信息和变异体的参考等位基因的表达信息(如果有的话);以及(vi)生成(160)包括变异体的所表征的表达状态的报告。包括变异体的所表征的表达状态的报告。

【技术实现步骤摘要】
【国外来华专利技术】用于增强变异体识别性能和表征变异体表达状态的组合DNA

RNA测序分析的方法和系统


[0001]本公开总体上涉及用于改进遗传变异体识别和表征变异体表达的方法和系统。

技术介绍

[0002]随着利用不同类型的分子信息的技术变得更容易以更低成本可获取,为同一样品生成多种类型的组学数据(例如,基因组、转录组、蛋白质组和表观基因组)变得越来越普遍。这可以更好地理解潜在的复杂生物系统。诸如Vantage 3D和TruSight Tumor 170(其分别基于和下一代测序(NGS)技术,支持同时提取DNA、RNA和甚至蛋白质数据)等商业化检测产品的推出进一步推动了对多组学数据分析的需求。虽然可以通过不同生物信息学管道在单独的孤岛(silo)中分析不同类型的组学数据,但这种主流方法未能利用这些数据在分子水平的功能关系。它也未能对个体异常的功能或甚至病理影响生成新的见解。
[0003]DNA和RNA测序是用于分析(profile)基因组和转录组的主要技术。DNA测序主要用于变异体识别,而RNA测序主要用于测量基因和转录表达水平。然而,诸如单核苷酸变异体(SNV)等突变也可以从RNA测序数据中获取,并且RNA测序变异体的信息与DNA测序变异体的信息相似。特别是对于基因融合检测,RNA测序实际上是主流方法。以这种方式使用RNA测序数据提供了交叉验证或改进突变检测的机会,并且提供了进一步研究它们的转录丰度和功能影响的机会。这种改进是必要的,因为变异体识别可能是有问题的,并且它们的功能多半是未知的。事实上,诸如样品质量、实验过程和测序覆盖率等因素都会影响变异体识别质量、灵敏度和特异性。

技术实现思路

[0004]持续地需要能够整合多组学数据以改进变异体识别和表征的方法和系统。本公开涉及用于表征从基因组样品中鉴定的多个变异体的变异体表达状态的创造性方法和系统。本文中的各种实施例和实现涉及一种将比对RNA测序数据和比对DNA测序数据合并成单个合并比对的系统和方法。然后在单个合并比对中鉴定变异体,并且鉴定满足预定最小读段计数阈值的变异体子集。使用来自RNA测序的表达数据来表征变异体子集,以将RNA编辑和表达状态分配给每个变异体。表达状态包括多个等位基因特异性表达分类中的一个,多个等位基因特异性表达分类包括变异体的替代等位基因的表达信息,并且如果有的话,包括变异体的参考等位基因的表达信息。生成包括子集内的多个变异体中的一个或多个变异体的所表征的表达状态的报告。
[0005]总体上,在一方面中,一种用于使用变异体分析系统表征从基因组样品中鉴定的多个变异体的变异体RNA编辑和/或表达状态的方法。该方法包括:(i)获取基因组样品的DNA测序数据,DNA测序数据包括多个不同变异体类型并且与参考基因组比对以生成比对
DNA测序数据;(ii)获取基因组样品的RNA测序数据,RNA测序数据包括多个不同变异体类型并且与参考基因组比对以生成比对RNA测序数据,并且其中所获取的RNA测序数据还包括每个变异体的表达数据;(iii)将比对RNA测序数据和比对DNA测序数据合并成单个合并比对,其中每个读段包括源鉴定符;(iv)在单个合并比对中鉴定相对于参考基因组的多个变异体以生成一组变异体,多个变异体包括多个不同变异体类型;(5)使用表达数据表征该组变异体内的至少多个变异体中的每个变异体的RNA编辑和/或表达状态,其中表达状态包括多个等位基因特异性表达分类中的一个,等位基因特异性表达分类包括变异体的替代等位基因的表达信息,并且如果有的话,包括变异体的参考等位基因的表达信息;以及(vi)生成报告,该报告包括该组变异体内的多个变异体的所表征的表达状态。
[0006]根据一个实施例,多个变异体是使用RNA测序数据变异体识别基本流程来鉴定的。
[0007]根据一个实施例,多个不同变异体类型至少包括单核苷酸变异体、插入、缺失、拷贝数变异体和基因融合。
[0008]根据一个实施例,所获取的RNA测序数据包括基因表达数据、转录表达数据、外显子表达数据、剪接数据和/或等位基因特异性表达数据。
[0009]根据一个实施例,多个等位基因特异性表达分类中的每个包括相对于变异体的参考等位基因的表达信息来描述变异体的替代等位基因的表达信息的鉴定符,并且其中存在多个不同鉴定符。根据一个实施例,多个不同鉴定符包括以下中的一项或多项:未表达位点、未表达变异体、纯合表达变异体、上调表达变异体、下调表达变异体、中性表达变异体、具有不一致性的表达变异体、具有不一致性的未表达变异体、低置信度的RNA编辑和高置信度的RNA编辑。
[0010]根据另一方面,一种用于表征从基因组样品中鉴定的多个变异体的变异体RNA编辑和/或表达状态的系统。该系统包括:基因组样品的DNA测序数据,DNA测序数据包括多个不同变异体类型并且与参考基因组比对以生成比对DNA测序数据;基因组样品的RNA测序数据,RNA测序数据包括多个不同变异体类型并且与参考基因组比对以生成比对RNA测序数据,其中所获取的RNA测序数据还包括每个变异体的表达数据;处理器,被配置为:(i)将比对RNA测序数据和比对DNA测序数据合并成单个合并比对;(ii)在单个合并比对中鉴定相对于参考基因组的多个变异体以生成一组变异体,多个变异体包括多个不同变异体类型;(iii)使用表达数据表征该组变异体内的至少多个变异体中的每个变异体的RNA编辑和/或表达状态,其中表达状态包括多个等位基因特异性表达分类中的一个,等位基因特异性表达分类包括变异体的替代等位基因的表达信息和变异体的参考等位基因的表达信息(如果有的话);以及(iv)生成报告,该报告包括该组变异体内的多个变异体的所表征的RNA编辑和/或表达状态;以及被配置为提供所生成的报告的用户接口。
[0011]根据另一方面,是一种用于使用变异体分析系统表征从基因组样品中鉴定的多个变异体的变异体RNA编辑和/或表达状态的方法。该方法包括:(i)获取基因组样品的DNA测序数据,DNA测序数据包括多个不同变异体类型并且与参考基因组比对以生成比对DNA测序数据;(ii)获取基因组样品的RNA测序数据,RNA测序数据包括多个不同变异体类型并且与参考基因组比对以生成比对RNA测序数据,并且其中所获取的RNA测序数据还包括每个变异体的表达数据;(iii)鉴定DNA测序数据中的多个变异体和RNA测序数据中的多个变异体以生成一组DNA变异体和一组RNA变异体,多个变异体中的每个变异体包括多个不同变异体类
型;(iv)将该组DNA变异体和该组RNA变异体合并成单组变异体,或者使用另一测序数据类型的变异体验证DNA测序数据中的多个变异体或RNA测序数据中的多个变异体以生成单组变异体;(v)使用表达数据表征该组变异体内的至少多个变异体中的每个变异体的RNA编辑和/或表达状态,其中表达状态包括多个等位基因特异性表达分类中的一个,等位基因特异性表达分类包括变异体的替代等位基因的表达信息,并且如果有的话,包括变异体的参考等位基因的表达信息;(vi)生成报告,该报告包括一组变异体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于使用变异体分析系统(500)来表征从基因组样品中鉴定的多个变异体的变异体RNA编辑和/或表达状态的方法(100),包括:获取(110)所述基因组样品的DNA测序数据,所述DNA测序数据包括多个不同变异体类型并且与参考基因组比对以生成比对DNA测序数据;获取(110)所述基因组样品的RNA测序数据,所述RNA测序数据包括多个不同变异体类型并且与所述参考基因组比对以生成比对RNA测序数据,并且其中所获取的RNA测序数据还包括每个变异体的表达数据;将所述比对RNA测序数据和所述比对DNA测序数据合并(130)成单个合并比对,其中每个读段包括源鉴定符;在所述单个合并比对中鉴定(140)相对于所述参考基因组的多个变异体以生成一组变异体,所述多个变异体包括多个不同变异体类型;使用所述表达数据表征(150)所述一组变异体内的至少多个变异体中的每个变异体的RNA编辑和/或表达状态,其中所述表达状态包括多个等位基因特异性表达分类中的一个等位基因特异性表达分类,所述等位基因特异性表达分类包括所述变异体的替代等位基因的表达信息,并且如果有的话,包括所述变异体的参考等位基因的表达信息;以及生成(160)报告,所述报告包括所述一组变异体内的所述多个变异体的所表征的RNA编辑和/或表达状态。2.根据权利要求1所述的方法,其中所述多个变异体是使用RNA测序数据变异体识别基本流程来鉴定的。3.根据权利要求1所述的方法,其中所述多个不同变异体类型至少包括单核苷酸变异体、插入、缺失、拷贝数变异体和基因融合。4.根据权利要求1所述的方法,其中所获取的RNA测序数据包括基因表达数据、转录表达数据、外显子表达数据、剪接数据和/或等位基因特异性表达数据。5.根据权利要求1所述的方法,其中所述多个等位基因特异性表达分类中的每个等位基因特异性表达分类包括相对于所述变异体的所述参考等位基因的所述表达信息来描述所述变异体的所述替代等位基因的所述表达信息的鉴定符,并且其中存在多个不同鉴定符。6.根据权利要求5所述的方法,其中所述多个不同鉴定符包括以下一项或多项:未表达位点、未表达变异体、纯合表达变异体、上调表达变异体、下调表达变异体、中性表达变异体、具有不一致性的表达变异体、具有不一致性的未表达变异体、高置信度的RNA编辑和低置信度的RNA编辑。7.一种用于表征从基因组样品中鉴定的多个变异体的变异体RNA编辑和/或表达状态的系统(800),包括:参考基因组;所述基因组样品的DNA测序数据,所述DNA测序数据包括多个不同变异体类型并且与参考基因组比对以生成比对DNA测序数据;所述基因组样品的RNA测序数据,所述RNA测序数据包括多个不同变异体类型并且与所述参考基因组比对以生成比对RNA测序数据,其中所获取的RNA测序数据还包括每个变异体的表达数据;
处理器(820),被配置为:(i)将所述比对RNA测序数据和所述比对DNA测序数据合并成单个合并比对;(ii)在所述单个合并比对中鉴定相对于所述参考基因组的多个变异体以生成一组变异体,所述多个变异体包括多个不同变异体类型;(iii)使用所述表达数据表征所述一组变异体内的至少多个变异体中的每个变异体的RNA编辑和/或表达状态,其中所述表达状态包括多个等位基因特异性表达分类中的一个等位基因特异性表达分类,所述等位基因特异性表达分类包括所述变异体的替代等位基...

【专利技术属性】
技术研发人员:张贻谦吴捷N
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1