基因组/蛋白质组序列的表示、可视化，比较以及报告制造技术

技术编号：22309722 阅读：78 留言：0更新日期：2019-10-16 09:40

基因组或蛋白质组数据被编码为包括生物信息学字符集(20)的字符的基因组或蛋白质组字符串。基因组或蛋白质组数据的每一个碱基或肽通过生物信息学字符集的单个字符来表示，以及生物信息学字符集的每个字符编码(I)碱基或肽以及(II)与该碱基或肽相关联的至少一个注释的数据值。该基因组或蛋白质组数据通过使用映射到生物信息学字符集的生物信息学字体(40)显示基因组或蛋白质组字符串来被显示。至少一个字符串函数可在基因组或蛋白质组字符串上执行以生成更新的基因组或蛋白质组字符串，其中至少一个碱基或肽由编码了至少一个附加的或修改的注释的数据的单个字符表示，该字符由执行的字符串操作生成。

Representation, visualization, comparison and reporting of genome / proteome sequences

全部详细技术资料下载

【技术实现步骤摘要】
基因组/蛋白质组序列的表示、可视化，比较以及报告本申请是申请日为2012年7月4日、专利技术名称为“使用生物信息学字符集和和映射的生物信息学字体的基因组/蛋白质组序列的表示、可视化，比较以及报告”的专利申请201280033367.2的分案申请。
以下涉及生物信息学、基因组处理技术、蛋白质组处理技术、以及相关技术。
技术介绍
基因组或蛋白质组数据包括碱基或肽的有序序列。在脱氧核糖核酸(DNA)的情况下，碱基是腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶，它们通常分别由字母“A”、“C”、“G”、和“T”表示。在核糖核酸(RNA)的情况下，碱基是腺嘌呤、胞嘧啶、鸟嘌呤和尿嘧啶，它们通常分别由字母“A”、“C”、“G”和“U”表示。DNA和RNA不同在于由尿嘧啶(U)取代胸腺嘧啶(T)。蛋白质和其他蛋白质组分子包括通过肽键连接的氨基酸。相应的蛋白质组数据适宜由肽(或氨基酸)序列表示。(术语“肽”和“氨基酸”在本文中可互换使用来指蛋白质组序列的元件)。氨基酸通常是由一个字母或三个字母代码来表示。例如：丙氨酸是由字母“A”或三个字母代码“Ala”表示；精氨酸是由字母“R”或三个字母代码“Arg”表示；等等。在肽序列中，由于肽键不会改变，各个肽通常由它们的氨基酸成分表示。因此，例如，“A”或“Ala”用于在蛋白质序列中表示包含丙氨酸的肽。基因组或蛋白质组数据中包含大量的有用信息，其通常通过模式匹配来提取。例如，基因组或蛋白质组数据可以查找到在过去的临床研究中已经与某种疾病相关联的疾病标记，或者该数据可以被用于某些疾病的治疗计划，如癌症、代谢障碍、等等。指示祖先谱系的遗传标记可被...

【技术保护点】
1.一种基因组数据编码和显示方法，所述方法包括：在计算机中接收序列信息，所述序列信息包括标准化的格式的基因组数据；在所述计算机中将接收到的序列信息从所述标准化的格式转换为采用来自生物信息学字符集的基因组字符串的单个串表示，并且在所述计算机中将所述接收到的序列信息编码为所述基因组字符串，在所述基因组字符串中，单个字符表示所述接收到的序列信息中的每个碱基，并且每个字符具有N位，其中，N＝16，位的第一子集编码所述碱基，位的第二子集编码与所述碱基相关联的至少一个注释的数据值，位的所述第二子集的第一部分表示碱基质量，并且所述第二子集的每个剩余位分别对应于不同的注释值；并且在所述计算机中执行对被编码为所述基因组字符串的所述序列信息的序列比对，所述字符逐位被标记以保持仅由所述N位的所述第一子集表示的所述碱基。

【技术特征摘要】
2011.07.05 EP 11174187.2;2011.07.05 US 61/504,4111.一种基因组数据编码和显示方法，所述方法包括：在计算机中接收序列信息，所述序列信息包括标准化的格式的基因组数据；在所述计算机中将接收到的序列信息从所述标准化的格式转换为采用来自生物信息学字符集的基因组字符串的单个串表示，并且在所述计算机中将所述接收到的序列信息编码为所述基因组字符串，在所述基因组字符串中，单个字符表示所述接收到的序列信息中的每个碱基，并且每个字符具有N位，其中，N＝16，位的第一子集编码所述碱基，位的第二子集编码与所述碱基相关联的至少一个注释的数据值，位的所述第二子集的第一部分表示碱基质量，并且所述第二子集的每个剩余位分别对应于不同的注释值；并且在所述计算机中执行对被编码为所述基因组字符串的所述序列信息的序列比对，所述字符逐位被标记以保持仅由所述N位的所述第一子集表示的所述碱基。2.根据权利要求1所述的方法，其中，所述编码包括将所述序列信息中的至少一个不明确的碱基编码为这样的字符：其所述N位的第一子集使用表示两个或更多个候选碱基的代码来编码所述至少一个不明确的碱基。3.根据权利要求1所述的方法，其中，每个字符的所述N位的所述第二子集的所述第一部分编码指示所编码碱基的质量值的注释的数据值；所述基因组字符串中其所述N位的第一子集编码腺嘌呤碱基的每个字符还包括指示由所述N位的所述第二子集编码的所述质量值的标记，所述基因组字符串中其所述N位的第一子集编码鸟嘌呤碱基的每个字符还包括指示由所述N位的所述第二子集编码的所述质量值的标记；所述基因组字符串中其所述N位的第一子集编码胞嘧啶碱基的每个字符还包括指示由所述N位的所述第二子集编码的所述质量值的标记，并且所述基因组字符串中其所述N位的第一子集编码胸腺嘧啶或尿嘧啶碱基的每个字符还包括指示由所述N位的所述第二子集编码的所述质量值的标记。4.根据权利要求1所述的方法，进一步包括：将所述基因组字符串的所述字符映射到所述字符的所述N位的所述第一子集和表示由所述字符的所述N位的所述第二子集编码的所述至少一个注释的数据的标记。5.根据权利要求1所述的方法，进一步包括：执行串比较，将所述基因组字符串与参考基因组字符串进行比较，以生成更新的基因组字符串，在所述更新的基因组字符串中，由编码通过所执行的串比较生成的至少一个附加的或修改的注释的数据的单个字符表示至少一个碱基。6....

【专利技术属性】
技术研发人员：R·辛格，S·库马尔，B·查克拉巴蒂，
申请(专利权)人：皇家飞利浦有限公司，
类型：发明
国别省市：荷兰,NL

全部详细技术资料下载我是这个专利的主人