A system and method for HLA typing for computer simulation and prediction of patients is proposed, in which the sequence of patients' sequence reading and the reference sequence of a known and different HLA allele are used in the de bloom map. Then, the HLA alleles were sorted using compound match scores, thus providing the first HLA typing. The second HLA typing was identified by using the adjusted composite matching scores.
【技术实现步骤摘要】
【国外来华专利技术】用于高精度识别变体的系统和方法本申请要求2015年8月25日提交的序列号为62/209,858的美国临时申请的优先权。
本专利技术的领域是核苷酸序列的计算机模拟分析的系统和方法,尤其涉及SNP、多核苷酸变体、插入缺失、结构变体和HLA分型的高精度识别。
技术介绍
背景描述包括可用于理解本专利技术的信息。并不是承认本文提供的任何信息是现有技术或与当前要求保护的专利技术相关,或者明确或暗示引用的任何出版物是现有技术。本文中的所有出版物和专利申请通过引用并入,其程度如同每个单独的出版物或专利申请被具体地和单独地指示为通过引用并入。当并入的参考文献中的术语定义或使用与本文提供的该术语定义不一致或相反时,本文提供的该术语定义适用,并且参考文献中对该术语的定义不适用。用于高通量测序数据的变体检测对于精确比对高度相关的基因组序列片段已变得越来越重要,由于序列读段的轻微变化,这通常是不对齐的,导致不精确或变体信息的丢失。已经进行了几次尝试来改善高度相关序列的比对。例如,“Platypus”(维康信托基金会人类遗传学中心)是一种为高通量测序数据中相对高效和精确的变体检测而设计的工具。通过使用读段局部重新排列和局部组装,Platypus实现了相对于SNP、MNP、短插入缺失、替换和缺失高达几kb的较高的灵敏度和较高的特异性检测。虽然Platypus通常比传统的比对系统更精确,但各种困难仍然存在。除其它外,处理覆盖整个基因组的基因组数据是有问题的,并且在存在多个具有高度相似性的序列的情况下,精确度可能不太理想。类似地,DISCOVAR(BroadInstitute)是一个对组装 ...
【技术保护点】
1.一种计算机模拟预测患者HLA分型的方法,其包含:提供包括多个已知且不同的HLA等位基因序列的参考序列;提供多个患者序列读段,其中,至少一些所述患者序列读段包括编码患者特异性HLA的序列;将所述多个患者序列读段分解成多个相应的k聚体组;使用参考序列和所述多个相应的k聚体组生成复合德布鲁因图;以及使用由所述多个患者序列读段的相应投票计算的复合匹配分数来对每个已知且不同的HLA等位基因进行排序,并且,其中每个投票使用与已知且不同的HLA等位基因中相应片段匹配的k聚体。
【技术特征摘要】
【国外来华专利技术】2015.08.25 US 62/209,8581.一种计算机模拟预测患者HLA分型的方法,其包含:提供包括多个已知且不同的HLA等位基因序列的参考序列;提供多个患者序列读段,其中,至少一些所述患者序列读段包括编码患者特异性HLA的序列;将所述多个患者序列读段分解成多个相应的k聚体组;使用参考序列和所述多个相应的k聚体组生成复合德布鲁因图;以及使用由所述多个患者序列读段的相应投票计算的复合匹配分数来对每个已知且不同的HLA等位基因进行排序,并且,其中每个投票使用与已知且不同的HLA等位基因中相应片段匹配的k聚体。2.根据权利要求1所述的方法,其中,所述参考序列包括至少一种HLA分型的等位基因,其具有至少1%的等位基因频率。3.根据权利要求1所述的方法,其中,所述参考序列包括至少一种HLA分型的至少10种不同的等位基因。4.根据权利要求1所述的方法,其中,所述参考序列包括至少两种不同的HLA分型的等位基因。5.根据权利要求1所述的方法,其中,HLA分型为HLA-A分型,HLA-B分型,HLA-C分型,HLA-DRB-1分型和/或HLA-DQB-1分型。6.根据权利要求1所述的方法,其中,所述多个患者序列读段包含多个DNA测序读段和RNA测序读段中的至少一个。7.根据权利要求1所述的方法,其中,所述患者序列读段映射至染色体6p21.3。8.根据权利要求1所述的方法,其中,所述患者序列读段是下一代测序读段并且还包含元数据。9.根据权利要求1所述的方法,其中,所述患者序列读段具有50至250个碱基之间的长度。10.根据权利要求1所述的方法,其中,所述k聚体具有10-20的长度。11.根据权利要求1所述的方法,其中,所述k聚体具有患者序列读段长度的5%至15%之间的长度。12.根据权利要求1所述的方法,其中,所述复合匹配分数是来自多个患者序列读段的所有投票的总和。13.根据权利要求1所述的方法,其中,所述投票是表示匹配k聚体与每患者序列读段的k聚体总数的比例的值。14.根据权利要求1所述的方法,其还包含将最高级排序HLA等位基因鉴定为患者的第一HLA分型的步骤。15.根据权利要求14所述的方法,其还包含使用经调整的复合匹配分数来重新排序剩余的非最高级排序的已知且不同的HLA等位基因,以将经调整的最高级排序的HLA等位基因鉴定为患者的第二HLA分型。16.根据权利要求15所述的方法,其中,经调整的复合匹配分数由所述多个患者序列读段的相应经调整的投票计算得到。17.根据权利要求16所述的方法,其中,通过降低匹配第一HLA分型的k聚体的权重来计算经调整的投票。18.根据前述权利要求中任一项所述的方法,其中,所述参考序列包括至少一种HLA分型的等位基因,其具有至少1%的等位基因频率,或者,其中所述参考序列包括至少一种HLA分型的至少10种不同的等位基因,或者,其中所述参考序列包括至少两种不同HLA分型的等位基因。19.根据前述权利要求中任一项所述的方法,其中,所述k聚体具有10-20的长度,或者,其中所述k聚体具有患者序列读段长度的5%至15%之间的长度。20.根据前述权利要求中任一项所述的方法,其中,所述复合匹配分数是来自所述多个患者序列读段的所有投票的总和,和/或,其中所述投票是表示匹配k聚体与每患者序列读段的k聚体总数的比例的值。21.一种用于计算机模拟预测患者的HLA分型的计算机系统,其包含:存储参考序列的参考序列数据库,所述参考序列包括多个已知且不同的HLA等位基因序列;存储或提供多个患者序列读段的患者序列数据库源,其中,至少一些所述患者序列读段包括编码患者特异性HLA的序列;分析引擎,其被编程为:(i)将所述多个患者序列读段分解成多个相应的k聚体组;(ii)使用参考序列和所述多个相应的k聚体组生成复合德布鲁因图;以及(iii)使用复合匹配分数对每个已知且不同的HLA等位基因进行排序,所述复合匹配分数由多个患者序列读段的相应投票计算得到,并且,其中每个投票使用与已知且不同的HLA等位基因中的相应片段匹配的k聚体。22.根据权利要求21所述的计算机系统,其中,所述参考序列包括至少一种HLA分型的等位基因,其具有至少1%的等位基因频率,或者,其中所述参考序列包括至少一种HLA分型的至少10种不同的等位基因,或者,其中所述参考序列包括至少两种不同HLA分型的等位基因。23.根据权利要求21所述的计算机系统,其中,所述HLA分型为HLA-A分型,HLA-B分型,H...
【专利技术属性】
技术研发人员:J·Z·桑伯恩,
申请(专利权)人:南托米克斯有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。