一种测序样本的标识方法及其应用技术

技术编号:19647240 阅读:18 留言:0更新日期:2018-12-05 20:35
本发明专利技术提供了一种测序样本的标识方法及其应用,所述方法包括以下步骤:(1)构建测序样本库与DNA标签库的单射关系;(2)根据步骤(1)所述单射关系,采用DNA标签库中的DNA标签标识测序样本。本发明专利技术通过构建测序样本库与DNA标签库的单射关系,确定了与测序样本唯一对应的DNA标签组合,且不同的测序样本对应不同的DNA标签组合,实现了DNA标签对测序样本的特异性标识。

A Sequencing Sample Identification Method and Its Application

The invention provides a method for identifying sequencing samples and its application. The method comprises the following steps: (1) constructing the single emission relationship between sequencing sample library and DNA tag library; (2) identifying sequencing samples by using DNA tags in DNA tag library according to the single emission relationship described in step (1). The invention determines the unique combination of DNA tags corresponding to sequencing samples by constructing the single emission relationship between sequencing sample library and DNA tag library, and different sequencing samples correspond to different combinations of DNA tags, thus realizing the specific identification of DNA tags to sequencing samples.

【技术实现步骤摘要】
一种测序样本的标识方法及其应用
本专利技术属于高通量测序
,涉及一种测序样本的标识方法及其应用。
技术介绍
新一代测序技术(nextgenerationsequencing,NGS)在临床和科研领域具有广泛的应用,该技术具有高通量的特点,然而由于单个样本的测序数据量有限,通常会同时进行多个样本混合上机测序。为了区分不同的样本,在文库构建的过程中,需要在不同的样本上添加6-8位不同的index碱基序列接头。该方法虽然简单易行,但是容易产生样品间的污染,造成错误。主要原因包括以下几个方面:首先,不同样本间的index序列一般仅存在2-3位不同的碱基,在index合成过程中,可能会引入少量的合成错误,同样在index测序过程中,也可能会引入少量的测序错误,这些错误是不可避免的,误差可达0.001-0.1%;其次,在样本提取和文库构建过程中,人为操作引入的样品间污染比例可高可低,如果污染发生在index添加之前,那么便不能通过index排除;再次,在文库构建过程中通常需要进行PCR扩增,PCR过程采用的高保真核酸聚合酶具有修复功能,在将不同样本混合进行PCR的过程中,阳性变异会由于修复原因扩散到其他样本中,该过程产生的污染比例较低,一般小于0.1%。针对上述问题,需要建立一种精确的样本标识方法,用于区分样本,并且对样本间的污染进行定性和定量分析。目前主要通过鉴定不同样本间的SNP位点来确定样品间的污染情况,但是限于不同样品间SNP位置和数量的差异,以及测序错误的干扰,基于SNP的样本标识方法误差较大,并且该方法适用于常规高频变异检测,不适用于低频变异。CN105861710A公开了测序接头、其制备方法及其在超低频变异检测中的应用,其中,测序接头包括依次相连的文库扩增引物序列、目的片段扩增引物序列以及错误提示序列,错误提示序列位于靠近目的片段的一侧,文库扩增引物序列位于远离目的片段的一侧,错误提示序列为已知碱基顺序的序列。所述专利技术通过在靠近目的片段的一侧增设了已知碱基顺序的错误提示序列,错误提示序列能够为每个双链的DNA模板加上特有的外源标记,便于后续得到目的片段的测序数据后,根据测序序列是否带有相同的错误提示序列筛选或剔除测序本身或者文库扩增步骤中引入的突变,然后将在两条链同一位置都出现变异的位点确定为真实的突变,而将只有一条链有突变的位点认定为扩增或者测序误差,从而提高变异检测精度。然而该专利技术的测序接头采用化学合成方法进行制备,成本较高,并且仍然存在0.005%左右的假阳性率。因此,提供一种准确度高、针对低频变异的样本标识方法,用于定性和定量分析样本间的污染情况,在高通量测序
具有重要意义。
技术实现思路
针对现有技术的不足,本专利技术提供了一种测序样本的标识方法及其应用,所述方法通过对测序样本进行样本标识,实现了样本污染源的定性和定量分析,有利于完成低频变异检测。为达此目的,本专利技术采用以下技术方案:第一方面,本专利技术提供了一种测序样本的标识方法,所述方法包括以下步骤:(1)构建测序样本库与DNA标签库的单射关系;(2)根据步骤(1)所述单射关系,采用DNA标签库中的DNA标签标识测序样本。本专利技术中,通过构建测序样本库与DNA标签库的单射关系,确定了与测序样本唯一对应的DNA标签组合,且不同的测序样本对应不同的DNA标签组合,实现了DNA标签对测序样本的特异性标识。优选地,步骤(1)所述单射关系的构建方法包括:根据测序样本的编号构建标识序列,其中,所述标识序列包括DNA标签库中的DNA标签。优选地,所述标识序列的构建方法包括以下步骤:根据测序样本库中测序样本的数量确定所述测序样本的标识码的位数;对所述测序样本采用标识码进行编号;对DNA标签库中的DNA标签排序;根据所述标识码,按顺序逐一确定标识序列包含的核酸标签,若标识码的第m位取值为1,则所述标识序列包含相应位的DNA标签,若标识码的第m位取值为0,则所述标识序列不包含相应位的DNA标签。优选地,所述标识码采用二进制计数法表示。根据本专利技术,测序样本库中测序样本的数量M与测序样本的二进制标识码的位数N具有M≤2N关系。本专利技术中,所述二进制标识码可以添加若干位校验码,以防止二进制标识码编号错误。本专利技术中,通过分析标识序列,还原出测序样本的编号,实现了标识序列对测序样本的标识功能。优选地,步骤(1)所述测序样本库与所述DNA标签库的同源性不高于20%,优选为不高于10%。本专利技术中,选择与测序样本同源性较低的核酸序列构建DNA标签库,有利于DNA标签的读取与分析,降低了分析误差。优选地,步骤(2)所述DNA标签的长度为60-180bp,例如可以是60bp、70bp、80bp、90bp、100bp、110bp、120bp、130bp、140bp、150bp、160bp、170bp或180bp,优选为60-120bp。所述DNA标签与所述测序样本的摩尔浓度比例为(10-5-10-6):1,例如可以是10-5:1或10-6:1。优选地,所述标识序列还包括Illumina测序接头。第二方面,本专利技术提供了一种测序样本的分析方法,所述方法包括以下步骤:(1’)采用如权利要求1-8任一项所述的方法标识测序样本;(2’)构建文库和高通量测序;(3’)读取标识序列的测序结果,与原始标识序列比较,分析测序结果。本专利技术中,文库构建采用常规方法,对于杂交捕获测序方案,通过加入捕获所有DNA标签库中DNA标签的探针,实现高通量测序。根据本专利技术,若标识序列的测序结果与原始标识序列相同,则测序样本未污染;若标识序列的测序结果与原始标识序列不同,则分析是否混有来自其他样本的核酸标签,进而确定污染来源,进一步通过确定污染核酸标签的测序深度和在原污染源样本中的测序深度,并根据各个样本的下机数据量,精确定量样本污染比例。第三方面,本专利技术提供了一种第一方面所述的方法和/或如第二方面所述的方法在定量检测样本污染中的应用。与现有技术相比,本专利技术具有如下有益效果:(1)本专利技术通过构建测序样本库与DNA标签库的单射关系,确定了与测序样本唯一对应的DNA标签组合,且不同的测序样本对应不同的DNA标签组合,实现了DNA标签对测序样本的特异性标识;(2)本专利技术对测序样本采用二进制标识码编号,编号数量多,有利于实现样本高通量,同时根据二进制标识码确定标识序列的组成,方法简单;(3)本专利技术通过分析标识序列,还原出测序样本的编号,实现了标识序列对测序样本的标识功能,同时实现了样本污染源的定性和定量分析,有利于完成低频变异检测。附图说明图1为测序样本的分析方法的流程图;图2为测序样本的二进制标识码示意图。具体实施方式为进一步阐述本专利技术所采取的技术手段及其效果,以下结合实施例和附图对本专利技术作进一步地说明。可以理解的是,此处所描述的具体实施方式仅仅用于解释本专利技术,而非对本专利技术的限定。实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道商购获得的常规产品。实施例1图1所示为测序样本的分析方法的流程图,该方法包括以下步骤:步骤110,构建DNA标签库,所述DNA标签库与测序样本库的同源性为5%;步骤120,生成测序样本的二进制标本文档来自技高网
...

【技术保护点】
1.一种测序样本的标识方法,其特征在于,所述方法包括以下步骤:(1)构建测序样本库与DNA标签库的单射关系;(2)根据步骤(1)所述单射关系,采用DNA标签库中的DNA标签标识测序样本。

【技术特征摘要】
1.一种测序样本的标识方法,其特征在于,所述方法包括以下步骤:(1)构建测序样本库与DNA标签库的单射关系;(2)根据步骤(1)所述单射关系,采用DNA标签库中的DNA标签标识测序样本。2.根据权利要求1所述的方法,其特征在于,步骤(1)所述单射关系的构建方法包括:根据测序样本的编号构建标识序列,其中,所述标识序列包括DNA标签库中的DNA标签。3.根据权利要求1或2所述的方法,其特征在于,所述标识序列的构建方法包括以下步骤:(1)根据测序样本库中测序样本的数量确定所述测序样本的标识码的位数;对所述测序样本采用标识码进行编号;对DNA标签库中的DNA标签排序;(2)根据所述标识码,按顺序逐一确定标识序列包含的核酸标签,若标识码的第m位取值为1,则所述标识序列包含相应位的DNA标签,若标识码的第m位取值为0,则所述标识序列不包含相应位的DNA标签。4.根据权利要求1-3任一项所述的方法,其特征在于,所述标识码...

【专利技术属性】
技术研发人员:陈实富刘明张晓妮许明炎卢超
申请(专利权)人:江西海普洛斯生物科技有限公司
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1