基因组/蛋白质组序列的表示、可视化,比较以及报告制造技术

技术编号:22309722 阅读:78 留言:0更新日期:2019-10-16 09:40
基因组或蛋白质组数据被编码为包括生物信息学字符集(20)的字符的基因组或蛋白质组字符串。基因组或蛋白质组数据的每一个碱基或肽通过生物信息学字符集的单个字符来表示,以及生物信息学字符集的每个字符编码(I)碱基或肽以及(II)与该碱基或肽相关联的至少一个注释的数据值。该基因组或蛋白质组数据通过使用映射到生物信息学字符集的生物信息学字体(40)显示基因组或蛋白质组字符串来被显示。至少一个字符串函数可在基因组或蛋白质组字符串上执行以生成更新的基因组或蛋白质组字符串,其中至少一个碱基或肽由编码了至少一个附加的或修改的注释的数据的单个字符表示,该字符由执行的字符串操作生成。

Representation, visualization, comparison and reporting of genome / proteome sequences

【技术实现步骤摘要】
基因组/蛋白质组序列的表示、可视化,比较以及报告本申请是申请日为2012年7月4日、专利技术名称为“使用生物信息学字符集和和映射的生物信息学字体的基因组/蛋白质组序列的表示、可视化,比较以及报告”的专利申请201280033367.2的分案申请。
以下涉及生物信息学、基因组处理技术、蛋白质组处理技术、以及相关技术。
技术介绍
基因组或蛋白质组数据包括碱基或肽的有序序列。在脱氧核糖核酸(DNA)的情况下,碱基是腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶,它们通常分别由字母“A”、“C”、“G”、和“T”表示。在核糖核酸(RNA)的情况下,碱基是腺嘌呤、胞嘧啶、鸟嘌呤和尿嘧啶,它们通常分别由字母“A”、“C”、“G”和“U”表示。DNA和RNA不同在于由尿嘧啶(U)取代胸腺嘧啶(T)。蛋白质和其他蛋白质组分子包括通过肽键连接的氨基酸。相应的蛋白质组数据适宜由肽(或氨基酸)序列表示。(术语“肽”和“氨基酸”在本文中可互换使用来指蛋白质组序列的元件)。氨基酸通常是由一个字母或三个字母代码来表示。例如:丙氨酸是由字母“A”或三个字母代码“Ala”表示;精氨酸是由字母“R”或三个字母代码“Arg”表示;等等。在肽序列中,由于肽键不会改变,各个肽通常由它们的氨基酸成分表示。因此,例如,“A”或“Ala”用于在蛋白质序列中表示包含丙氨酸的肽。基因组或蛋白质组数据中包含大量的有用信息,其通常通过模式匹配来提取。例如,基因组或蛋白质组数据可以查找到在过去的临床研究中已经与某种疾病相关联的疾病标记,或者该数据可以被用于某些疾病的治疗计划,如癌症、代谢障碍、等等。指示祖先谱系的遗传标记可被用于评估受试者的祖先。在执法或某些其他领域,表型与基因型的关联可以提供有用的信息。例如,从犯罪现场获得的DNA样本可能表明罪犯有某物理特征,从而排除不具有该特征的任何疑犯。序列处理通常包括以下操作:获取序列片段;序列片段相对于参考序列的比对(例如,一些合适的参考序列包括:RefSeq、hgl8、hgl9、泛基因组、等等);以及对比对后的序列进行分析来识别特定主题的变化。在没有参考映射(map)时其可能还包括从头比对,导致多种长度的重叠群的产生,然后可以将0其注释和进行比较分析。基因组或蛋白质组数据通常被获取为序列片段,其以标准化的格式存储,例如FastA或FastQ。一种合适的输出FastA或FastQ数据的序列分析仪系统线是Illumina测序仪(购自Illumina公司,圣地亚哥,加利福尼亚州,美国)。FastA格式使用单个的字母来代表每个碱基或肽(例如,用于DNA的碱基表示“A”、“C”、“G”和“T”或用于RNA的“A”、“C”、“G”和“U”)。额外的单个字母代码可被提供以表示不明确的碱基—例如,字母“R”可以表示不明确的碱基,腺嘌呤或鸟嘌呤。FastQ格式是FastA的扩展,它包括表示该碱基序列的质量值的字符的附加线。由于为每个碱基使用了两个字符(一个字符来表示碱基值,第二个字符表示质量值),FastQ文件大约两倍于相应的FastA文件。该序列片段相对于一个参考序列被比对以产生比对后的基因组或蛋白质组数据,其通常被存储在序列比对/染色体图(SAM)文本文件或等效的二进制BAM文件中。SAM格式通常采用“基于1”的坐标系统,其中序列的第一个碱基的坐标是一,而BAM格式通常使用一种“基于0”的坐标系统,其中序列的第一个碱基的坐标是零。该序列片段形成的比对后的序列适宜保持在FastA格式(在BAM的情况下转换为二进制格式)。序列比对允许识别功能区域,例如,基因、内含子(基因内的不翻译成蛋白质的不相干的子序列)、外显子(基因的被翻译成蛋白质的部分)、启动子(促进基因转录的子序列)、转录因子(TF)结合位点的编码序列(与DNA序列中TF结合位点相结合的TF蛋白,以控制转录)、转录到非编码RNA(nc-RNA)的序列、等等。比对后的基因组或蛋白质组序列然后被分析以识别变化,如单核苷酸多态性(SNP)、拷贝数变异(CNV)、子序列的插入或缺失(indel)特性、各种染色体内和/或染色体间重排等等。这些变化可作为疾病的标志、祖先谱系标记等等。序列处理是计算密集型的,并产生大量的产品数据。为了便于说明,一个典型的基因组测序研究可能产生大约40GB的FastA数据,和/或大约80GB的FastQ数据。这些序列片段的比对产生的大约200GB的一个或多个SAM文件(以二进制BAM格式可减少至约100GB)。比对后的数据由模式匹配算法处理来识别感兴趣的变化,并且这些研究的结果通常存储为各种文本文件、表格、电子表格或其它数据汇编。这些现有的方法具有某些缺点。医生或其他审阅者可能需要访问和检查大量的文件以获得所需的信息。变异分析本身也可以由于数据存储的多样性而变得复杂。例如,考虑一个发生在外显子的变化,而不是其他地方,是有证明力的。在变分分析中,首先进行模式匹配,以识别与变化签名相匹配的候选序列。此后,访问源SAM文件以确定该候选序列匹配是否发生在外显子中。这个变异分析包括两个步骤:(1)匹配碱基序列;以及(2)匹配碱基序列匹配到外显子。(可替代地,外显子数据可以使用SAM内容首先被识别,随后碱基序列匹配仅被应用到外显子数据。然而,又一次地,这是一个两步的过程)。测序结果的呈现也由于数据存储的多样性而变得复杂。通常情况下,每个变异分析的结果都存储在自己的文本文件、表格、电子表格或其他数据汇编中。因此,医生或其他审阅者需要检查不同的数据汇编来访问研究的结果。这个过程可能会错过信息组合的协同或不和谐。表和/或电子表格的文本格式也可能很难理解。一种解决方案是附加地以图、彩色编码图、或类似的形式呈现选定的结果。然而,这种辅助的数据表示的生成进一步提高了计算复杂度。此外,图形化的结果摘要可将这些结果和底层的基因组或蛋白质组序列数据分离。
技术实现思路
下面提供了此处公开的新的和改进的装置和方法。根据一个公开的方面,一种方法包括:编码基因组或蛋白质组数据为基因组或蛋白质组字符串,其包括生物信息学字符集中的字符,其中:(i)基因组或蛋白质组数据的每个碱基或肽由生物信息学字符集的一个单个的字符表示,以及(ii)生物信息学字符集的每个字符编码(I)碱基或肽和(II)与碱基或肽相关的至少一个带注释的数据值;以及通过使用映射到生物信息学字符集的生物信息学字体显示基因组或蛋白质组字符串来显示基因组或蛋白质组数据。该编码和显示被适当地由数字处理设备执行。该方法可以进一步包括对基因组或蛋白质组字符串执行至少一个串函数来生成更新的基因组或蛋白质组字符串,在其中至少一个碱基或肽由编码了至少一个由执行的字符串操作生成的附加的或修改的注释的基准的一个单个的字符表示。根据另一个公开的方面,一种数字处理设备被配置为执行在上一段中陈述的方法。根据另一个公开的方面,一种非临时性(non-transitory)存储介质是由数字处理设备可读的,并存储由数字处理设备可执行的指令来执行在上文中所述的方法。根据另一个公开的方面,一种非临时性存储介质是可由数字处理器读取的,并存储用于处理表示为包括生物信息学字符集的字符的基因组或蛋白质组字符串的基因组或蛋白质组数据的软件,其中基因组或蛋白质组数据的每一个碱基或肽由生物本文档来自技高网
...

【技术保护点】
1.一种基因组数据编码和显示方法,所述方法包括:在计算机中接收序列信息,所述序列信息包括标准化的格式的基因组数据;在所述计算机中将接收到的序列信息从所述标准化的格式转换为采用来自生物信息学字符集的基因组字符串的单个串表示,并且在所述计算机中将所述接收到的序列信息编码为所述基因组字符串,在所述基因组字符串中,单个字符表示所述接收到的序列信息中的每个碱基,并且每个字符具有N位,其中,N=16,位的第一子集编码所述碱基,位的第二子集编码与所述碱基相关联的至少一个注释的数据值,位的所述第二子集的第一部分表示碱基质量,并且所述第二子集的每个剩余位分别对应于不同的注释值;并且在所述计算机中执行对被编码为所述基因组字符串的所述序列信息的序列比对,所述字符逐位被标记以保持仅由所述N位的所述第一子集表示的所述碱基。

【技术特征摘要】
2011.07.05 EP 11174187.2;2011.07.05 US 61/504,4111.一种基因组数据编码和显示方法,所述方法包括:在计算机中接收序列信息,所述序列信息包括标准化的格式的基因组数据;在所述计算机中将接收到的序列信息从所述标准化的格式转换为采用来自生物信息学字符集的基因组字符串的单个串表示,并且在所述计算机中将所述接收到的序列信息编码为所述基因组字符串,在所述基因组字符串中,单个字符表示所述接收到的序列信息中的每个碱基,并且每个字符具有N位,其中,N=16,位的第一子集编码所述碱基,位的第二子集编码与所述碱基相关联的至少一个注释的数据值,位的所述第二子集的第一部分表示碱基质量,并且所述第二子集的每个剩余位分别对应于不同的注释值;并且在所述计算机中执行对被编码为所述基因组字符串的所述序列信息的序列比对,所述字符逐位被标记以保持仅由所述N位的所述第一子集表示的所述碱基。2.根据权利要求1所述的方法,其中,所述编码包括将所述序列信息中的至少一个不明确的碱基编码为这样的字符:其所述N位的第一子集使用表示两个或更多个候选碱基的代码来编码所述至少一个不明确的碱基。3.根据权利要求1所述的方法,其中,每个字符的所述N位的所述第二子集的所述第一部分编码指示所编码碱基的质量值的注释的数据值;所述基因组字符串中其所述N位的第一子集编码腺嘌呤碱基的每个字符还包括指示由所述N位的所述第二子集编码的所述质量值的标记,所述基因组字符串中其所述N位的第一子集编码鸟嘌呤碱基的每个字符还包括指示由所述N位的所述第二子集编码的所述质量值的标记;所述基因组字符串中其所述N位的第一子集编码胞嘧啶碱基的每个字符还包括指示由所述N位的所述第二子集编码的所述质量值的标记,并且所述基因组字符串中其所述N位的第一子集编码胸腺嘧啶或尿嘧啶碱基的每个字符还包括指示由所述N位的所述第二子集编码的所述质量值的标记。4.根据权利要求1所述的方法,进一步包括:将所述基因组字符串的所述字符映射到所述字符的所述N位的所述第一子集和表示由所述字符的所述N位的所述第二子集编码的所述至少一个注释的数据的标记。5.根据权利要求1所述的方法,进一步包括:执行串比较,将所述基因组字符串与参考基因组字符串进行比较,以生成更新的基因组字符串,在所述更新的基因组字符串中,由编码通过所执行的串比较生成的至少一个附加的或修改的注释的数据的单个字符表示至少一个碱基。6....

【专利技术属性】
技术研发人员:R·辛格S·库马尔B·查克拉巴蒂
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:荷兰,NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1