当前位置: 首页 > 专利查询>中山大学专利>正文

生命组学序列数据的反向检索方法技术

技术编号:16919637 阅读:27 留言:0更新日期:2017-12-31 15:04
本发明专利技术涉及一种生命组学序列数据的反向检索方法,包括以下步骤:S1.对测序产生的未知序列数据进行综合索引,构建整合化的索引数据库群;S2.将已知或已注释的序列数据确定为检索所需的查询序列集,然后利用查询序列集在索引库群进行检索。

【技术实现步骤摘要】
生命组学序列数据的反向检索方法
本专利技术涉及生物医学
,更具体地,涉及一种生命组学序列数据的反向检索方法。
技术介绍
现有的生命组学序列数据检索方法,如NCBIBLAST(Camachoetal2009),FASTA(Pearsonetal,1991)等,都是索引已知的或已注释的序列数据并建成索引数据库群,再提交未知的或未注释的序列数据进行比对检索,具体如图1所示。检索结果提供了多个匹配序列的信息。用户可以根据最优匹配的信息来注释被查询的未知序列。这种正向检索方式关注的是被查询的未知序列,可用于定性或预测单个序列或基因,适用于提交的数据比被检索数据库小很多的情况。然而,随着当前测序技术的高速发展和测序成本的不断下降,现在每天产生的未知序列的数量比已知或已注释的序列数据大许多倍,达到TB量级甚至PB量级。在这种发展趋势下,正向检索方法的检索效率变得越来越低。当前以参考基因组和拼接组装的未知基因组为基础的正向检索方式,在面对大数据组学数据时存在着多种限制乃至无法克服的问题,主要有两个方面:(1)提交海量的未知序列检索已知或已注释的序列数据,效率随着提交的未知序列数量的增加而降低。原因是此类方法在对每一个未知序列检索时,都要对被检索的序列数据库从头到尾地扫描。查询一次未知序列,检索扫描一次;查询n次,检索扫描n次。可见对被检索的序列数据库重复扫描的次数很多,所以检索的效率低。(3)由于需要进行检索的未知序列通常是基因组测序产生的数据,要经过测序数据的拼接组装才能进入下一阶段的检索。拼接组装的过程是将有重叠的短序列整合在一起并生成具有代表性的长序列,而找不到重叠或重叠不足的短序列就会被放弃。拼接组装需要耗费大量的计算资源,同时必然会丢失部分数据,造成无法得到全面数据,从而不能全面准确地分析和利用基因信息。
技术实现思路
本专利技术为解决现有技术提供的正向检索方法存在的检索效率低及未知序列需要经过拼接组装所造成的数据不完整的技术缺陷,提供了一种生命组学序列数据的反向检索方法。为实现以上专利技术目的,采用的技术方案是:S1.对测序产生的未知序列数据进行综合索引,构建整合化的索引数据库群;S2.将已知或已注释的序列数据确定为检索所需的查询序列集,然后利用查询序列集在索引库群进行检索。与现有技术相比,本专利技术的有益效果是:(1)以数量级别地提高了生命组学数据的检索效率:反向检索方法以已知的序列数据为查询序列,以海量未知的序列数据作为被检索数据库,因而被检索扫描的次数以数量级般地减少,从而提高了整体检索效率。(2)速度快、节约计算和存储资源:反向检索方法是基于无参考基因组的方式,而现有的正向检索方法需要对未知序列进行拼接组装并比对参考基因组,后者需要耗费大量的计算资源、存储资源以及运行时间。(3)保留全部有价值数据:在无需基因组拼接组装和无参考基因组的情况下,反向检索方法扫描全部的未知序列数据,因此可以利用全部的未知序列数据进行迅速的假设验证和分析挖掘,达到全面掌控和利用数据的目的。附图说明图1为正向检索方法的示意图。图2为本专利技术提供的反向检索方法的示意图。图3为本专利技术提供的反向检索方法的具体实施过程图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;以下结合附图和实施例对本专利技术做进一步的阐述。实施例1本专利技术提供的生命组学序列数据的反向检索方法的全面技术路线及具体方法如图2、3所示,具体如下:(1)对测序产生的未知序列数据进行综合索引,构建整合化的索引数据库群(图3①)本实施例利用SequenceBloomTrees算法、FM-index算法或PopulationBWT算法对PB量级的组学数据进行高速压缩化索引;同时大数据的存储方面,将运用Hadoop数据集成技术或Spark数据集成技术,实现PB量级的组学数据的分布式存储;大数据运作方面,将使用LSF、PBS、SGE、SLURM、MAKE等并行处理和自动编译技术,实现后台PB量级数据的分布式自动、无缝、高效运作。(2)确定检索所需的查询序列集(图3②)反向检索将接受任意生物分子序列作为查询输入。将已知或已注释的序列数据,如病毒和细菌等外源性疾病的基因组、罕见病相关基因以及通过感兴趣的基因对照基因变异数据得到的感兴趣序列,甚至任意已知基因的序列,通过内部自动的流程整合成为待提交的序列数据集,作为检索研究的起始查询序列。内部开发的程序将不同类型的基因组学数据转换成符合反向检索的输入标准的查询序列。(3)已知或已注释的序列数据检索未知序列数据的索引数据库群(图3③)测序产生的高通量、未注释的未知序列数据,经过makeblastdb、FM-index等索引工具建成索引数据库群;利用高速序列检索工具,如PSISearch、SBTblast、smartSearch等,以及国内外多种开源工具,如SBTSearch、PSISearch2、megaBLAST,BLAT、CompressiveBLAST等工具,面向建成的索引群,提供多种方法的检索途径。检索的索引数据库可以是单个,也可以是多个,甚至上百个以上。检索的底层算法提供有严格的史密斯瓦特曼本地对比算法、本地-全局比对、全局-全局比对等算法。检索的方式可采用是单次检索或迭代检索,后者迭代次数可高达数十次。工具的参数的默认值为检索参数默认值,反向检索提供可调节的主要参数。检索的结果以匹配的排列和匹配的序列两两比对的形式表现,结果默认保留排列前100个匹配。在检索并行性处理方面,将使用LSF、PBS、SLURM等作业调度系统,实现PB量级组学大数据的高速检索。(4)反向检索结果的多重比对(图3④)序列检索的结果只是对未知序列群的初步定性,而多重序列的比对可以对于检索结果列出的相似序列进行整体的分析,对基因型的鉴定等下游分析提供线索。序列检索结果输出大量的相似序列的两两比对,通过相似的两两比对,选择和提取这些序列并做多重比对的处理,然后通过多重比对的结果来分析基因型和定性基因变异。反向检索技术和序列多重比对算法ClustalOmega、TCOFFEE、MUSCLE、Kalign的结合,可快速鉴定无拼接组装基因组的基因变异等基因型信息分析。(5)基因型鉴定和外源性疾病基因组等深入分析(图3⑤)在序列多重比对结果中识别基因变异,或采用人工智能深度学习的最新成果来进行基因型分析;另外,反向检索将应用于外源性疾病基因组数据的分析,例如研究癌症基因组与病毒、细菌等外源性物种基因的关系。开发的方法能提供PB量级基因组数据的高速检索,结果可用于基因型分析(包括单核苷酸的插入、删除、修改等)、独立于参考基因组的结构变异、基因变异与新分子亚型、外源性致病基因组与人类基因的结合分析、识别癌症与不同病毒的关系等。方法技术方面,基因型鉴定将会运用到机器学习深度学习工具,如Eigen、DeepSea、DeepBind等卷轴神经网络(CNN)模型的工具;硬件利用方面,将会运用OpenCL、CUDA、Brook等图形API接口技术,实现CPU与GPU协同运算的生物信息学应用;软件编程方面,将会运用GoogleTensorFlow、Karas,Caffe等程序库包对循环神经网络(CNN)模型进行深度学习的实施和训练。显然,本专利技术的上述实施例仅仅是为清楚地本文档来自技高网
...
生命组学序列数据的反向检索方法

【技术保护点】
生命组学序列数据的反向检索方法,其特征在于:包括以下步骤:S1.对测序产生的未知序列数据进行综合索引,构建整合化的索引数据库群;S2.将已知或已注释的序列数据确定为检索所需的查询序列集,然后利用查询序列集在索引库群进行检索。

【技术特征摘要】
1.生命组学序列数据的反向检索方法,其特征在于:包括以下步骤:S1.对测序产生的未知序列数据进行综合索引,构建整合化的索引数据库群;S2.将已知或已注释的序列数据确定为检索所需的查询序列集,然后利用查询序列集在索引库群进行检索。2.根据权利要求1所述的生命组学序列数据的反向检索方法,其特征在于:所述步骤S1利用SequenceBloomTrees算法、FM-index算法、PopulationBWT算法或makeblastdb工具对未知序列数据进行高速压缩化索引,然后构建索引数据库群。3.根据权利要求2所述的生命组学序列数据的反向检索方法,其特征在于:所述索引数据库群利用Hadoop数据集成技术或Spark数据集成技术进行分布式存储。4.根据权利要求1所述的生命组学序列数据的反向检索方法,其特征在于:所述已知或已注释的序列数据为任意已知的基因序列、外源性疾病基因组、罕见病基因或感兴趣的基因对照基因变异数据得到的感兴趣序列。5....

【专利技术属性】
技术研发人员:李伟忠
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1