用于高精度识别变体的系统和方法技术方案

技术编号:18580537 阅读:21 留言:0更新日期:2018-08-01 14:47
提出了用于计算机模拟预测患者的HLA分型的系统和方法,其中,在德布鲁因图中使用患者序列读段和具有已知且不同的HLA等位基因的参考序列。然后使用复合匹配分数对HLA等位基因进行排序,从而提供第一HLA分型。通过使用经调整的复合匹配分数重新排序而鉴定第二HLA分型。

Systems and methods for high precision recognition variants

A system and method for HLA typing for computer simulation and prediction of patients is proposed, in which the sequence of patients' sequence reading and the reference sequence of a known and different HLA allele are used in the de bloom map. Then, the HLA alleles were sorted using compound match scores, thus providing the first HLA typing. The second HLA typing was identified by using the adjusted composite matching scores.

【技术实现步骤摘要】
【国外来华专利技术】用于高精度识别变体的系统和方法本申请要求2015年8月25日提交的序列号为62/209,858的美国临时申请的优先权。
本专利技术的领域是核苷酸序列的计算机模拟分析的系统和方法,尤其涉及SNP、多核苷酸变体、插入缺失、结构变体和HLA分型的高精度识别。
技术介绍
背景描述包括可用于理解本专利技术的信息。并不是承认本文提供的任何信息是现有技术或与当前要求保护的专利技术相关,或者明确或暗示引用的任何出版物是现有技术。本文中的所有出版物和专利申请通过引用并入,其程度如同每个单独的出版物或专利申请被具体地和单独地指示为通过引用并入。当并入的参考文献中的术语定义或使用与本文提供的该术语定义不一致或相反时,本文提供的该术语定义适用,并且参考文献中对该术语的定义不适用。用于高通量测序数据的变体检测对于精确比对高度相关的基因组序列片段已变得越来越重要,由于序列读段的轻微变化,这通常是不对齐的,导致不精确或变体信息的丢失。已经进行了几次尝试来改善高度相关序列的比对。例如,“Platypus”(维康信托基金会人类遗传学中心)是一种为高通量测序数据中相对高效和精确的变体检测而设计的工具。通过使用读段局部重新排列和局部组装,Platypus实现了相对于SNP、MNP、短插入缺失、替换和缺失高达几kb的较高的灵敏度和较高的特异性检测。虽然Platypus通常比传统的比对系统更精确,但各种困难仍然存在。除其它外,处理覆盖整个基因组的基因组数据是有问题的,并且在存在多个具有高度相似性的序列的情况下,精确度可能不太理想。类似地,DISCOVAR(BroadInstitute)是一个对组装序列和鉴定变体相对精确的工具。但是,DISCOVAR通常不适合处理海量数据量。在另一种方法中,大基因组推理引擎(BIGGIE;Bioinformatics,vol.25,pp.2078-9,2009)通过首先将基因组分类成高复杂度和低复杂度区域并随后相应地分配资源来增加处理速度。虽然这种方法趋于减少对计算资源的需求,但在低复杂度区域出现变体时,识别变体通常不太理想。另外,用于下一代测序数据的大多数已知变体识别体使用概率性框架(例如使用贝叶斯统计)以检测变体并评估变体的置信度。虽然这种方法通常能令人满意地工作,但各种因素如极端读段深度、合并的样本、以及受污染或不纯的样本往往会混淆分析。为了克服这些问题,VarScan(GenomeRes.201222:568-576)采用启发式/统计方法以识别满足读段深度、碱基质量、变体等位基因频率和统计显著性的期望阈值的变体。然而,这种方法通常不会鉴定没有被单个读段所跨越的基因组中的较大变化。在另一种已知的方法中,使用相对较长的k聚体(k-mers,例如k至少为55)和隐式编码该图的散列表从测序数据(NatGenet.2012;44(2):226–232)生成彩色的德布鲁因图(deBruijngraph)。然而,对于孤立的单核苷酸多态性(SNP)、短插入缺失(1-100bp)以及SNP和插入缺失(1-100bp)的小型复杂组合,作者报道仅80%检测杂合位点的能力和90%检测纯合变体位点的能力。此外,对于中等大小(100-1000bp)的插入缺失和复杂变体,杂合和纯合位点的能力分别为50%和75-80%,对于大变体(1-50kb),作者报道仅检测纯合变体位点的能力(35%)。因此,尽管所描述的彩色德布鲁因图便于至少在某种程度上分析SNP和插入缺失,但精确度和检测能力不如预期。因此,这种方法的主要优势在于同时分析多个基因组,这使得无需任何参考基因组即可实现强大和精确的变体检测方法。因此,即使用于识别变体的众多系统和方法在本领域中是已知的,仍然需要用于高精度识别变体的改进系统和方法,尤其是涉及计算机模拟HLA分型时。
技术实现思路
本专利技术主题涉及用于由患者序列数据进行高精度识别变体的各种系统、方法和设备,并且尤其涉及使用来自测序机器的DNA和/或RNA序列的HLA分型。在特别优选的方面,患者序列读段和包含多个HLA等位基因的参考序列以德布鲁因图方法进行处理。每个患者序列读段为各种等位基因提供加权投票,然后使用每个等位基因的总投票来排序等位基因。排序中最高的等位基因是第一HLA分型,并且然后对与第一HLA分型匹配的k聚体偏差的剩余等位基因的重新排序提供了第二HLA分型。在本专利技术主题的一个方面中,本专利技术人设想了一种计算机模拟预测患者HLA分型的方法,该方法提供了包括多个已知且不同的HLA等位基因序列的参考序列,且提供了多个患者序列读段,其中,至少一些患者序列读段包括编码患者特异性HLA的序列。在进一步的步骤中,将患者序列读段分解成多个相应的k聚体组,然后使用参考序列和多个相应的k聚体组生成复合德布鲁因图。进一步设想了使用由多个患者序列读段的相应投票计算的复合匹配分数来对每个已知且不同的HLA等位基因进行排序,其中,每个投票使用与已知且不同的HLA等位基因中相应片段匹配的k聚体。最通常地,参考序列包括至少一种HLA分型的等位基因,其具有至少1%的等位基因频率,或参考序列包括至少一种HLA分型的至少10种不同的等位基因,和/或至少有两种不同的HLA分型的等位基因。对于HLA分型,设想了合适的HLA分型包括HLA-A分型,HLA-B分型,HLA-C分型,HLA-DRB-1分型和/或HLA-DQB-1分型。患者序列读段通常会包含多个DNA测序读段和RNA测序读段中的至少一个,并且通常会映射至染色体6p21.3。最通常地,患者序列读段是下一代测序读段并且还包含元数据,和/或具有50至250个碱基之间的长度。就k聚体而言,设想了优选的k聚体会具有10-20的长度,和/或会具有患者序列读段长度的5%至15%之间的长度。虽然不限于本专利技术主题,但通常优选的是,复合匹配分数是来自多个患者序列读段的所有投票的总和,其中,投票通常是表示匹配k聚体与每患者序列读段的k聚体总数的比例的值。因此,使用复合匹配分数,设想的方法可以包含将最高级排序HLA等位基因鉴定为患者的第一HLA分型的步骤。在需要时,可以使用经调整的复合匹配分数来实施重新排序剩余的非最高级的已知且不同的HLA等位基因的附加步骤,以将经调整的最高级排序的HLA等位基因鉴定为患者的第二HLA分型。最通常地,经调整的复合匹配分数可以由多个患者序列读段的相应调整的投票计算得到,并且可以通过降低匹配第一HLA分型的k聚体的权重来计算经调整的投票。考虑到上述情况,本专利技术人因此也设想了一种用于计算机模拟预测患者的HLA分型的计算机系统。从不同的角度看,本专利技术人还设想了含有用于引起计算机系统的程序指令的非瞬态计算机可读介质,其中,参考序列数据库和患者序列数据源信息地耦合至分析引擎。对于合适的参考序列、患者序列读段、HLA分型、k聚体、复合匹配分数以及附加的重新排序步骤,如上所提供的相同考虑适用。根据以下对优选实施方式的详细描述以及附图,本专利技术主题的各种目的、特征、方面和优点将会变得更加明显,附图中相同的标记表示相同的部件。附图说明图1是根据本专利技术主题的一个示例性方法的示意图。图2是根据本专利技术主题的一个示例性计算机系统的示意图。具体实施方式本专利技术人已经发现,在其中使用基于德布鲁因图的方法结合具有已知序列信息的本文档来自技高网
...

【技术保护点】
1.一种计算机模拟预测患者HLA分型的方法,其包含:提供包括多个已知且不同的HLA等位基因序列的参考序列;提供多个患者序列读段,其中,至少一些所述患者序列读段包括编码患者特异性HLA的序列;将所述多个患者序列读段分解成多个相应的k聚体组;使用参考序列和所述多个相应的k聚体组生成复合德布鲁因图;以及使用由所述多个患者序列读段的相应投票计算的复合匹配分数来对每个已知且不同的HLA等位基因进行排序,并且,其中每个投票使用与已知且不同的HLA等位基因中相应片段匹配的k聚体。

【技术特征摘要】
【国外来华专利技术】2015.08.25 US 62/209,8581.一种计算机模拟预测患者HLA分型的方法,其包含:提供包括多个已知且不同的HLA等位基因序列的参考序列;提供多个患者序列读段,其中,至少一些所述患者序列读段包括编码患者特异性HLA的序列;将所述多个患者序列读段分解成多个相应的k聚体组;使用参考序列和所述多个相应的k聚体组生成复合德布鲁因图;以及使用由所述多个患者序列读段的相应投票计算的复合匹配分数来对每个已知且不同的HLA等位基因进行排序,并且,其中每个投票使用与已知且不同的HLA等位基因中相应片段匹配的k聚体。2.根据权利要求1所述的方法,其中,所述参考序列包括至少一种HLA分型的等位基因,其具有至少1%的等位基因频率。3.根据权利要求1所述的方法,其中,所述参考序列包括至少一种HLA分型的至少10种不同的等位基因。4.根据权利要求1所述的方法,其中,所述参考序列包括至少两种不同的HLA分型的等位基因。5.根据权利要求1所述的方法,其中,HLA分型为HLA-A分型,HLA-B分型,HLA-C分型,HLA-DRB-1分型和/或HLA-DQB-1分型。6.根据权利要求1所述的方法,其中,所述多个患者序列读段包含多个DNA测序读段和RNA测序读段中的至少一个。7.根据权利要求1所述的方法,其中,所述患者序列读段映射至染色体6p21.3。8.根据权利要求1所述的方法,其中,所述患者序列读段是下一代测序读段并且还包含元数据。9.根据权利要求1所述的方法,其中,所述患者序列读段具有50至250个碱基之间的长度。10.根据权利要求1所述的方法,其中,所述k聚体具有10-20的长度。11.根据权利要求1所述的方法,其中,所述k聚体具有患者序列读段长度的5%至15%之间的长度。12.根据权利要求1所述的方法,其中,所述复合匹配分数是来自多个患者序列读段的所有投票的总和。13.根据权利要求1所述的方法,其中,所述投票是表示匹配k聚体与每患者序列读段的k聚体总数的比例的值。14.根据权利要求1所述的方法,其还包含将最高级排序HLA等位基因鉴定为患者的第一HLA分型的步骤。15.根据权利要求14所述的方法,其还包含使用经调整的复合匹配分数来重新排序剩余的非最高级排序的已知且不同的HLA等位基因,以将经调整的最高级排序的HLA等位基因鉴定为患者的第二HLA分型。16.根据权利要求15所述的方法,其中,经调整的复合匹配分数由所述多个患者序列读段的相应经调整的投票计算得到。17.根据权利要求16所述的方法,其中,通过降低匹配第一HLA分型的k聚体的权重来计算经调整的投票。18.根据前述权利要求中任一项所述的方法,其中,所述参考序列包括至少一种HLA分型的等位基因,其具有至少1%的等位基因频率,或者,其中所述参考序列包括至少一种HLA分型的至少10种不同的等位基因,或者,其中所述参考序列包括至少两种不同HLA分型的等位基因。19.根据前述权利要求中任一项所述的方法,其中,所述k聚体具有10-20的长度,或者,其中所述k聚体具有患者序列读段长度的5%至15%之间的长度。20.根据前述权利要求中任一项所述的方法,其中,所述复合匹配分数是来自所述多个患者序列读段的所有投票的总和,和/或,其中所述投票是表示匹配k聚体与每患者序列读段的k聚体总数的比例的值。21.一种用于计算机模拟预测患者的HLA分型的计算机系统,其包含:存储参考序列的参考序列数据库,所述参考序列包括多个已知且不同的HLA等位基因序列;存储或提供多个患者序列读段的患者序列数据库源,其中,至少一些所述患者序列读段包括编码患者特异性HLA的序列;分析引擎,其被编程为:(i)将所述多个患者序列读段分解成多个相应的k聚体组;(ii)使用参考序列和所述多个相应的k聚体组生成复合德布鲁因图;以及(iii)使用复合匹配分数对每个已知且不同的HLA等位基因进行排序,所述复合匹配分数由多个患者序列读段的相应投票计算得到,并且,其中每个投票使用与已知且不同的HLA等位基因中的相应片段匹配的k聚体。22.根据权利要求21所述的计算机系统,其中,所述参考序列包括至少一种HLA分型的等位基因,其具有至少1%的等位基因频率,或者,其中所述参考序列包括至少一种HLA分型的至少10种不同的等位基因,或者,其中所述参考序列包括至少两种不同HLA分型的等位基因。23.根据权利要求21所述的计算机系统,其中,所述HLA分型为HLA-A分型,HLA-B分型,H...

【专利技术属性】
技术研发人员:J·Z·桑伯恩
申请(专利权)人:南托米克斯有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1