一种基于隐藏亚组的生信降噪分析方法及系统技术方案

技术编号:36701004 阅读:28 留言:0更新日期:2023-03-01 09:17
本申请涉及一种测序数据背景噪音剔除的生信分析方法和系统。本方法基于“引入的噪音信号会形成隐藏亚组”,对样本中组分之间的连接进行分析,从而实现在最大程度保留真实信号前提下,更加有效剔除引入的噪音信号。本申请不依赖于任何对待测真实信号和噪音信号的先验知识,即可高效去除噪音。即可高效去除噪音。即可高效去除噪音。

【技术实现步骤摘要】
一种基于隐藏亚组的生信降噪分析方法及系统


[0001]本申请涉及生信分析领域,具体涉及一种测序数据的背景噪音剔除方法。
技术背景
[0002]微生物群落的组成与环境生态系统、人类健康、临床疾病关系密切。宏基因组方法(metagenomic next generation sequencing,mNGS)是一种可以对样本中所有核酸分子进行检测的方法,可以对样本中微生物群落组成进行量化描述。由于其极高的灵敏度和极低的检测限(LOD)的特点,宏基因组方法在检出极微量的真实核酸分子信号的同时,也会检出实验过程中引入的污染(如环境微生物)的核酸分子。更麻烦的是,由于微生物物种之间的高度相似性,单一微生物的数据也会在后续的生物信息学分析过程中被注释为多种微生物,形成误检。如果没有有效的的分析处理,这些噪音信号,即,实验引入的污染和生信引入的误检,就会导致不准确的数据解释。
[0003]宏基因组测序方法包括将样本中的所有核酸分子进行提取、构建文库、文库测序和数据分析等几个步骤,以上的几个步骤均可能引入噪音信号。虽然已有文献报道可以通过严格的实验操作尽本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种区分真实信号与背景信号的生信分析方法,其特征在于,包括如下步骤:步骤1)待测样本和阴性对照样本测序步骤;步骤2)按分类单元对待测样本和阴性对照样本测序数据分组步骤;步骤3)待测样本和阴性对照样本的分类单元统计步骤;步骤4)待测样本与阴性对照结果对比,计算分类单元相互关系步骤;步骤5)待测样本与阴性对照结果对比,鉴定隐藏亚组步骤。2.权利要求1所述的生信分析方法,其特征在于,所述步骤2)中所述分组为基于比对的方法分别对待测样本和阴性对照样本进行分组;优选的,采用保留非单一比对结果的比对软件(如BLASTN软件)对测序读出序列进行序列比对后分组。3.权利要求1所述的生信分析方法,其特征在于,所述步骤2)中所述分组为基于非比对的方法分别对待测样本和阴性对照样本进行分组;优选的,采用包括但不限于kmer方法、哈希表方法或字符串匹配方法进行分组。4.权利要求1

3任一所述的生信分析方法,其特征在于,所述步骤3)中所述分类单元统计包括但不限于如下统计量:统计每一个分类单元的支持测序读出序列数目、每一个分类单元的相对比例或每一个分类单元经过某种归一化之后的统计量。5.权利要求1

4任一所述的生信分析方法,其特征在于,所述步骤4)中所述计算分类单元相互关系为针对步骤3)的分类单元的统计量,将待测样本中每两个分类单元进行配对(pair),并计算该配对中的两个分类单元的比例是否在待测样本和阴性对照中维持稳定;如果维持稳定,则认为该配对的分类单元相互之间具有联系。6.权利要求1

5任一所述的生信分析方法,其特征在于,所述步骤5)中所述鉴定隐藏亚组为针对步骤2)的分类单元和步骤4)的分类单元相互关系,进行分类单元相互关系的处理和筛选,并将保留下来的分类单元之间的联系鉴定为隐藏亚组;优选的,所述隐藏亚组来自实验过程中或生信分析过程中相同来源引入的信号,所述隐藏亚组内部元素俩俩之间的比例在两个或多个条件下保持稳定;更优选的,所述鉴定和/或分析是通过无先验信息的方式进行隐藏亚组分析;所述鉴定和/或分析是利用用于分析俩个或多个元素之间关联或元素本身特点的分析方法进行;进一步优选的,所述鉴定和/或分析是利用计算机学科的图论(graph)方法进行,即,将步骤2)中的每一个分类单元作为图的顶点(node),每一个步骤4)中的具有联系的配对做为图的边(edge),构建设完整的无向图;在无向图中,找到其中的完全子图(complete subgraph),该完全子图即作为隐藏亚组。7.权利要求1

5任一所述的生信分析方法,其特征在于,所述步骤5)后进一步包括如下步骤:步骤6)构建生信对照,并统计其分类单元步骤;步骤7)待测样本与生信对照结果对比,计算分类单元相互关系步骤;步骤8)待测样本与生信对照结果对比,鉴定隐藏亚组步骤。8.权利要求7所述的生信分析方法,其特征在于,所述步骤6)的生信对照为基于步骤2)的比对结果,按照测序读出序列的比对情况,使用其中比对结果作为生信对照。9.权利要求7所述的生信分析方法,其特征在于,所述步骤6)的生信对照为基于步骤2)的非比对结果,对每个分类单元的参考基因组进行数据模拟,根据测序仪的错误分布规律,
模拟该分类单元的测序读出序列,并用模拟的测序读出序列进行分组,该模拟数据的分组结果即可作为该分类单元的生信对照。10.权利要求7

9任一所述的生信分析方法,其特征在于,所述步骤7)为针对步骤6)的分类单元的统计量,将待测样本中每两个分类单元进行配对(pair),并计算该配对中的两个分类单元的比例是否在待测样本中比在生信对照中更高或持平;优选的,如果更高或持平,则认为该配对的分类单元相互之间具有联系;更优选的,所述两个分类单元的比例是通过分类单元统计量的相除得到;或者是通过对单元统计量进行统计检验得到。11.权利要求7

9任一所述的生信分析方法,其特征在于,所述步骤7)在剔除步骤5)中形成隐藏亚组的分类单元后,再针对步骤6)的分类单元的统计量,将待测样本中每俩个分类单元进行配对(pair),并计算该配对中的俩个分类单元的比例是否在待测样本中比在生信对照中更高或持平;优选的,如果更高或持平,则认为该配对的分类单元相互之间具有联系;更优选的,所述两个分类单元的比例是通过分类单元统计量的相除得到;或者是通过对单元统计量进行统计检验得到。12.权利要求1...

【专利技术属性】
技术研发人员:夏涵胡龙官远林梁晓雪魏康飞段美林
申请(专利权)人:西咸新区予果微码生物科技有限公司予果智造科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1