用于传送并且预处理测序数据的系统和方法技术方案

技术编号:15397017 阅读:171 留言:0更新日期:2017-05-19 11:31
公开了“组学”数字数据传输系统和方法。公开的系统和方法采用传输服务器,该传输服务器基于来自一个或多个测序装置的机器专用注释和与组学输出文件的一种或多种属性相关的用户输入来聚集较大量的组学输出文件的传输组。

System and method for transmitting and preprocessing sequenced data

A group digital data transmission system and method are disclosed. System and method for using public transport server, the server group transmission transmission special comments from one or more sequencing device based on machine learning and output file and group of one or more attributes related to the user input to gather more omics output files.

【技术实现步骤摘要】
【国外来华专利技术】用于传送并且预处理测序数据的系统和方法本申请要求2013年11月13日提交的序列号为61/903903的美国临时申请的优先权。美国临时申请No.61/903903和本文中参考的其它外部参考文献的全文以引用方式并入本文。
本专利技术的领域是传送并且预处理基因组测序数据的系统和方法,尤其地,当其涉及从一个或多个测序仪(sequencer)到序列分析引擎的基因组测序文件的注释、排队和批量传递时。
技术介绍
背景描述包括可用于理解本专利技术的信息。这并非承认本文中提供的信息中的任何信息是现有技术或与当前要求保护的本专利技术相关,或者具体或隐含引用的任何公布文献是现有技术。随着测序装置中的样本吞吐量增大,基因组数据的量和传输速度不免变成分析整个基因组的限制因素。例如,许多现代测序装置具有1-20Gb/日的吞吐量并且可合理地预期新测序技术将更进一步增大这个吞吐量。遗憾的是,至少在一些情况下,用于将数据传递到序列分析引擎的当前协议不再能够有效操纵此数据量并且将最终使处理速度减慢,并且据此延迟序列分析和潜在的患者护理。为了克服与路由生物序列信息关联的困难,一个或多个网络节点可包括分组生成器,分组生成器生成包括第一报头和第二报头的数据分组,其中第一报头包含网络路由信息,第二报头具有与代表生物序列数据的现有知识的分层数据模型关联的属性,如US2012/0236861和US2012/0233201中描述的。在US2014/0278461中描述了设施中的高序列信息量的操纵。然而,已知系统和方法都并不特别适于以简化后续分析的方式管理大量的数据,尤其是当这种分析涉及医疗专业人员的特定分析需要或要求时。显然,即使本领域已知操纵序列信息的众多方式,但也需要允许利用测序技术的最新进展的新数据操纵模式。
技术实现思路
本专利技术的主题涉及各种系统和方法,在这些系统和方法中,来自一个或多个数据源(例如,测序装置)的多个组学(omic)序列被供给到传输服务器,传输服务器对序列进行预处理并且将其分组成传输组,传输组随后被路由至序列分析引擎。在特别优选的方面中,基于组学序列中的机器专用注释和从用户输入的注释,完成预处理和分组。以这种方式,组学序列可被实时分组,并且被路由至下游序列分析引擎。因为组学序列被优选地分组,使得序列分析所需的所有序列在单个传输组中(即,在一个逻辑单元)中,与中断序列分析关联的延迟(例如,由于缺少供分析的一个或多个序列或者加载丢失的序列花费的时间)减少,并且更典型地,被完全避免。在使用序列分析引擎处理来自众多用户和/或患者样本的众多组学数据的情况下,这种优点是特别有益的。从不同的角度来看,本文中料想到的系统和方法允许序列分析引擎在最大速度下操作,因为与通过序列分析引擎的分析任务相关的所有数据被设置在单个组或匹配/对应的组中。在本专利技术主题的一个方面中,专利技术人料想到用于传递多个组学序列的运送系统,该运送系统包括传输服务器,传输服务器包括运送引擎和注释引擎。最优选地,传输服务器耦接到一个或多个测序装置,测序装置将多个组学输出文件提供到所述传输服务器,其中,所述组学输出文件中的每个包括序列数据和机器专用注释,并且所述传输服务器进一步耦接到从所述传输服务器接收传输组的序列分析引擎(例如,BAM服务器)。在特别优选的方面中,所述注释引擎使用从用户输入的注释来注释组学输出文件,从而形成带注释的组学输出文件,并且所述运送引擎基于所述机器专用注释和从用户输入的所述注释二者,将所述带注释的组学输出文件分组成所述传输组。所述运送引擎随后将所述传输组传递到所述序列分析引擎。虽然不限于本专利技术主题,但通常优选地是,所述组学输出文件是基因组输出文件(例如,整体基因组或外显子组)、RNA-组学输出文件、或蛋白质组输出文件,并且其中,输出文件是核苷酸序列,优选地是所述基因组输出文件是SAM格式、BAM格式、VCF格式、FASTQ格式和FASTA格式。另外,料想到,所述系统还将包括暂时数据存储装置,所述暂时数据存储装置耦接在所述多个测序装置和所述传输服务器之间,并且测序装置借助所述暂时数据存储装置将所述组学输出文件提供到所述传输服务器。需要时,还料想到,测序装置中的至少一个被配置为从传输服务器和/或序列分析引擎接收反馈信号。在其它料想的方面中,所述机器专用注释包括注释,所述注释包括日期和/或时间标识符、测序装置标识符、通道标识符、质量分数和/或配对成员标识符,并且从用户输入的注释通常将包括分析类型注释(例如,整体基因组分析、外显子组富集分析、转录组分析和蛋白质组分析)和/或患者专用注释(例如,患者标识符、组织标识符、组织状态标识符和健康记录标识符)。更优选地,但并不必需地,料想到所述运送引擎将把所述带注释的组学输出文件实时分组,和/或所述运送引擎将独立于所述带注释的组学输出文件中的实际序列将所述带注释的组学输出文件分组。在其它料想的方面中,所述运送引擎将在完成形成所述传输组时传送所述传输组,或者可使用用于机器专用注释的预定分组模式。需要时,还料想到,所述运送引擎对所述传输组加密,和/或向所述传输组提供或添加唯一ID。因此,所述传输服务器可以以加密形式可选地在向所述测序装置请求时从所述测序装置接收所述组学输出文件。因此,专利技术人还料想到一种传递多个组学序列的方法,其中,提供具有运送引擎和注释引擎的传输服务器。所述传输服务器随后从相应测序装置接收多个组学输出文件,其中,所述组学输出文件中的每个包括序列数据和机器专用注释。用户随后使用所述注释引擎来注释所述组学输出文件,以形成带注释的组学输出文件,并且所述运送引擎随后优选地实时地将所述带注释的组学输出文件分组成传输组。最优选地,分组将基于所述机器专用注释和从用户输入的所述注释两者。最终,所述传输服务器随后将把所述传输组传递到序列分析引擎(例如,BAM服务器)。如前述阐述的,组学输出文件可具有众多类型的内容,但典型地是基因组输出文件(例如,外显子组、整体基因组等)、RNA-组学输出文件(例如,转录组组)、或蛋白质组输出文件,这些文件将优选地从原始格式转换成SAM格式或BAM格式。需要时,在通过传输服务器接收所述多个组学输出文件的步骤之前,组学输出文件可被暂时存储在数据存储装置中。另外,料想到,传输服务器可向测序装置和/或序列分析引擎中的一个或多个提供反馈信号。通常还优选地是,所述机器专用注释包括日期和/或时间标识符、测序装置标识符、通道标识符、质量分数和/或配对成员标识符,和/或从用户输入的所述注释包括分析类型注释(例如,整体基因组分析、外显子组富集分析、转录组分析和蛋白质组分析)和/或患者专用注释(例如,患者标识符、组织标识符、组织状态标识符和健康记录标识符)。另外,料想到,在完成形成所述传输组时,或者根据预定的传递时间表或协议,传递所述传输组。需要时,还料想到,所述运送引擎将向所述传输组提供或添加唯一ID。因此,从另一个角度来看,专利技术人还料想到一种传递组学序列的方法,其中,传输服务器接收多个组学输出文件,所述组学输出文件均包括序列数据和机器专用注释。随后,除了所述机器专用注释之外,还使用从用户输入的注释将组学输出文件分组成传输组。所述传输组随后被从所述传输服务器传递到下游分析装置(例如,BAM服务器)。虽然不限于本专利技术主本文档来自技高网
...
用于传送并且预处理测序数据的系统和方法

【技术保护点】
一种用于传递多个组学序列的运送系统,所述运送系统包括:传输服务器,其包括运送引擎和注释引擎,其中,所述传输服务器耦接到(a)多个测序装置,其被配置为将多个组学输出文件提供到所述传输服务器,其中,组学输出文件中的每个包括序列数据和机器专用注释,以及(b)序列分析引擎,其被配置为从所述传输服务器接收传输组;其中,所述注释引擎被配置为使用从用户输入的注释来注释所述多个组学输出文件,从而形成带注释的组学输出文件;其中,所述运送引擎被配置为基于所述机器专用注释和从用户输入的所述注释,将所述带注释的组学输出文件分组成所述传输组;以及其中,所述运送引擎被配置为将所述传输组传递到所述序列分析引擎。

【技术特征摘要】
【国外来华专利技术】2013.11.13 US 61/903,9031.一种用于传递多个组学序列的运送系统,所述运送系统包括:传输服务器,其包括运送引擎和注释引擎,其中,所述传输服务器耦接到(a)多个测序装置,其被配置为将多个组学输出文件提供到所述传输服务器,其中,组学输出文件中的每个包括序列数据和机器专用注释,以及(b)序列分析引擎,其被配置为从所述传输服务器接收传输组;其中,所述注释引擎被配置为使用从用户输入的注释来注释所述多个组学输出文件,从而形成带注释的组学输出文件;其中,所述运送引擎被配置为基于所述机器专用注释和从用户输入的所述注释,将所述带注释的组学输出文件分组成所述传输组;以及其中,所述运送引擎被配置为将所述传输组传递到所述序列分析引擎。2.根据权利要求1所述的运送系统,其中,组学输出文件是基因组输出文件、RNA-组学输出文件、或蛋白质组输出文件。3.根据权利要求2所述的运送系统,其中,所述多个基因组输出文件具有选自SAM格式、BAM格式、VCF格式、FASTQ格式和FASTA格式的组的文件格式。4.根据前述权利要求中的任一项所述的运送系统,所述运送系统还包括暂时数据存储装置,所述暂时数据存储装置耦接在所述多个测序装置中的至少一个和所述传输服务器之间,并且其中,所述多个测序装置被配置为借助所述暂时数据存储装置将所述多个组学输出文件提供到所述传输服务器。5.根据前述权利要求中的任一项所述的运送系统,其中,所述多个测序装置中的至少一个被配置为从所述传输服务器和所述序列分析引擎中的至少一个接收反馈信号。6.根据前述权利要求中的任一项所述的运送系统,其中,所述机器专用注释包括选自由日期和/或时间标识符、测序装置标识符、通道标识符、质量分数和配对成员标识符组成的组的注释。7.根据前述权利要求中的任一项所述的运送系统,其中,从用户输入的注释包括选自由分析类型注释和患者专用注释组成的组的注释。8.根据权利要求7所述的运送系统,其中,所述分析类型注释选自由整体基因组分析、外显子组富集分析、转录组分析和蛋白质组分析组成的组。9.根据权利要求7所述的运送系统,其中,所述患者专用注释选自由患者标识符、组织标识符、组织状态标识符和健康记录标识符组成的组。10.根据前述权利要求中的任一项所述的运送系统,其中,所述运送引擎被配置为将所述带注释的组学输出文件实时分组。11.根据前述权利要求中的任一项所述的运送系统,其中,所述运送引擎被配置为独立于所述带注释的组学输出文件中的实际序列将所述带注释的组学输出文件分组。12.根据前述权利要求中的任一项所述的运送系统,其中,所述运送引擎被配置为在完成形成所述传输组时传送所述传输组。13.根据前述权利要求中的任一项所述的运送系统,其中,所述运送引擎被配置为使用用于机器专用注释的预定分组模式。14.根据前述权利要求中的任一项所述的运送系统,其中,所述运送引擎被配置为对所述传输组加密。15.根据前述权利要求中的任一项所述的运送系统,其中,所述运送引擎被配置为向所述传输组提供唯一ID。16.根据前述权利要求中的任一项所述的运送系统,其中,所述传输服务器被配置为以加密形式并且在向所述测序装置请求时从所述多个测序装置接收所述多个组学输出文件。17.根据前述权利要求中的任一项所述的运送系统,其中,所述序列分析引擎包括BAM服务器。18.一种传递多个组学序列的方法,所述方法包括:提供包括运送引擎和注释引擎的传输服务器;通过所述传输服务器从多个相应测序装置接收多个组学输出文件,其中,组学输出文件中的每个包括序列数据和机器专用注释;通过所述注释引擎使用从用户输入的注释来注释所述多个组学输出文件,从而形成带注释的组学输出文件;通过所述运送引擎将所述带注释的组学输出文件分组成传输组,其中,基于所述机器专用注释和从用户输入的所述注释分组;以及通过所述运送服务器将所述传输组传递到序列分析引擎;19.根据权利要求18所述的方法,其中,组学输出文件是基因组输...

【专利技术属性】
技术研发人员:S·C·本茨J·Z·萨伯恩C·J·瓦斯凯
申请(专利权)人:凡弗三基因组有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1