基于模板序列和参考细胞的TCRβ高通量测序数据校正和标准化的方法技术

技术编号:33732386 阅读:20 留言:0更新日期:2022-06-08 21:28
本发明专利技术属于生物技术领域,具体公开了一种基于模板序列和参考细胞的TCRβ高通量测序数据校正和标准化的方法,包括如下步骤:在样本中掺入固定数目的外参细胞和固定数目的合成模板,构建TCRβ的高通量测序文库,并使用高通量测序平台进行测序;利用加入的模板序列分析扩增偏倚规律;校正碱基突变偏倚引起的测序错误;利用外参细胞对样本测序数据进行标准化;对样本中的T细胞受体进行精确定量。本发明专利技术以高通量测序的方式,采用标准化流程,通过扩增偏倚校正,测序错误校正,样本标准化,可以对TCRβ高通量测序数据的校正和标准化,最后获得精准而真实的TCRβ库分布。得精准而真实的TCRβ库分布。得精准而真实的TCRβ库分布。

【技术实现步骤摘要】
基于模板序列和参考细胞的TCR
β
高通量测序数据校正和标准化的方法


[0001]本专利技术涉及生物
,特别是涉及一种基于模板序列和参考细胞的TCRβ高通量测序数据校正和标准化的方法

技术介绍

[0002]T细胞受体(T cell receptor,TCR)是T细胞表面的特异性受体,负责识别由主要组织相容性复合体(MHC)所递呈的抗原,并介导免疫应答。了解T细胞受体库的多样性组成,有助于我们对机体免疫状态的认识,进而弄清免疫性疾病发生发展的内在动因,为相关疫苗的研制、疾病的治疗提供帮助。T细胞受体β亚基上的互补决定区3(complementarities determining region 3,CDR3)是TCR受体上十分重要的区域,这一区域对抗原肽有着最强的结合能力,也是多样性最高的区域,最能代表TCR的多样性,因此,研究者们大多通过研究T细胞受体β链的CDR3(TCRβCDR3)的多样性来研究T细胞受体免疫组库的多样性。
[0003]对T细胞受体库的研究在技术上经历了三个主要发展阶段,是一个从粗略到精细的过程。最初的流式细胞术利用T细胞各亚家族的单克隆抗体仅能够对T细胞各亚家族的分布与缺失进行分析,得到比较粗略的结果。后来,研究者们根据TCR基因重排规则和TCR基因家族同源性的特点提出了免疫扫描谱系分析技术,相对于流式细胞术,该技术不仅能够分析T细胞各亚家族的分布情况,而且能够分析TCR库中CDR3长度的分布规律,但其还无法对具体的TCR序列进行分析。随着高通量测序技术的发展,研究者们开发了T细胞受体测序技术(TCR

seq),该技术能够对样品中所有的TCR进行测序分析,获得所有T细胞受体的遗传信息,全面揭示T细胞受体库的复杂性和多样性。但是T细胞受体库深度测序过程中,测序错误严重影响了对T细胞库多样性的估计。而且建库过程中需要对样本中的CDR3序列进行多重PCR扩增,多重引物相互之间的干扰以及扩增效率的不同,会产生扩增偏倚。由此可见,目前,T细胞受体库测序数据的校正问题还没有得到很好的解决,因此,需要建立有效的方法校正扩增偏倚、PCR和测序错误,以促进T细胞受体库的研究。

技术实现思路

[0004]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种基于模板序列和外参细胞的TCRβ高通量测序数据校正和标准化的方法,本专利技术通过模板序列和外参细胞的引入,开发了一种TCRβ库测序数据校正和标准化方法,建立了一种TCRβ库定量分析的方法。
[0005]为实现上述目的及其他相关目的,本专利技术提供一种基于模板序列和参考细胞的TCR高通量测序数据校正和标准化的方法,包括如下步骤:
[0006](a)在样本中掺入固定数目的外参细胞和固定数目的合成模板,构建TCRβ的高通量测序文库,并使用高通量测序平台进行测序;
[0007](b)利用加入的模板序列分析扩增偏倚规律;
[0008](c)校正测序过程中产生的测序错误;
NO.3

25所示的序列的比例依次为1∶2∶6∶6∶2∶2∶6∶2∶6∶6∶1∶2∶2∶6∶6∶6∶6∶1∶1∶2∶1∶2∶2。
[0031]可选地,多重PCR反应程序为:95℃预变性10min;95℃变性30s,59℃退火90s,72℃延伸90s,循环35次;最后72℃后延伸10min。
[0032]进一步,步骤(6)中,使用的高通量测序平台为Ion PGM平台,但不局限于此平台,本领域技术人员可以根据需求选择不同的高通量测序平台。
[0033]进一步,步骤(a)中,所述外参细胞的T细胞受体序列与样本中T细胞受体序列不同;优选地,所述外参细胞为2B4杂交瘤细胞,但不限于2B4杂交瘤细胞,只要其TCR序列与样本中TCR序列不同,皆可用作于外参细胞;本专利技术实施例中使用的2B4杂交瘤细胞数目为200个,具体外参细胞数目可根据样本中T细胞数量多少进行调整。
[0034]进一步,步骤(a)中,所述模板有23条,序列如SEQ ID NO.26

48所示,所述模板序列由V基因(V gene)、3个长度为6的分子条形码(BC)、D基因(D gene)、J基因(J gene)和C基因(C gene)构成,体现了TCRβ的序列特点。具体的,在V基因和C基因中包含扩增引物结合的位点。由于有功能的V基因只有23个,因此本专利技术用不同的V基因设计合成了23条模板序列,该序列的长度为366bp。其中分子条形码的长度不局限于6个,本领域技术人员可以根据实际需要进行自行调整。
[0035]进一步,步骤(b)中,利用分子条形码统计含有不同V基因的模板序列的测序reads数目,利用模板数目考察在混入样本后模板序列的扩增偏倚规律,计算扩增偏倚指数,扩增偏倚指数计算公式如下:
[0036][0037]i=1

23,n=23,Count(V
i
)为测序得到的模板序列V
i
的数目;若N(s)为CDR3序列s的频数,V
i
为s的V基因类型,则其校正后的频数N

(s)=N(s)
×
ABI(V
i
)。
[0038]进一步,步骤(c)中,采用Dayhoff方法构建替代矩阵,用于计算TCRβ的互补决定区3(complementarities determining region 3,CDR3)序列间的相似性,以校正测序过程中产生的序列错误,具体步骤为:将得到的替代矩阵作为双序列比对的参数,计算序列间的相似性得分,确定原始序列与错误序列间的相似性阈值,以此阈值为依据将低频错误序列合并到高频序列中,实现测序错误校正。
[0039]进一步,步骤(d)中,利用外参细胞对样本测序数据进行数据标准化:假设加入外参细胞数目为n,测得的reads数目为m,而某一CDR3的reads数目为k,则标准化后,这一CDR3所对应的细胞的数目p为
[0040][0041]如上所述,本专利技术的基于模板序列和参考细胞的TCRβ高通量测序数据校正和标准化的方法,具有以下有益效果:
[0042]本专利技术以高通量测序的方式,采用标准化流程,通过扩增偏倚校正,测序错误校正,样本标准化,可以对TCR高通量测序数据的校正和标准化,最后获得精准而真实的T细胞受体库分布。
附图说明
[0043]图1显示为本专利技术实施例提供的数据处理流程图。
[0044]图2显示为本专利技术实施例提供的替代矩阵示意图。
[0045]图3显示为本专利技术实施例提供的序列相似性阈值确定方法示意图。
[0046]图4显示为本专利技术实施例提供的序列频数阈值确定方法示意图。
[0047]图5显示为本专利技术实施例提供的测序错误校正方法示意图。
[0048]图6显示为校正和标准化后的数据示例。
具体实施方式
[0049]以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模板序列和参考细胞的TCRβ高通量测序数据校正和标准化的方法,其特征在于,包括如下步骤:(a)在样本中掺入固定数目的外参细胞和固定数目的合成模板,构建TCRβ的高通量测序文库,并使用高通量测序平台进行测序;(b)利用加入的模板序列分析扩增偏倚规律;(c)校正测序过程中产生的测序错误;(d)利用外参细胞对样本测序数据进行标准化;(e)对样本中的TCRβ进行精确定量。2.根据权利要求1所述的方法,其特征在于:步骤(a)包括如下步骤:(1)使用Trizol裂解样本,在裂解样本中加入固定数目的外参细胞的裂解液;(2)提取样本和外参细胞的总RNA;(3)利用TCRβ的C端特异性引物进行反转录;(4)在反转录样本中加入固定数目的模板序列;(5)使用一组优化了序列组成和使用浓度的多重PCR引物构建TCRβ的高通量测序文库;(6)使用高通量测序平台进行测序。3.根据权利要求2所述的方法,其特征在于:步骤(2)中,总RNA提取的方法为Trizol法;和/或,步骤(3)中,TCRβ的C端特异性引物为TRBC,其序列如SEQ ID NO.1所示;步骤(4)中,所述模板有23条,序列如SEQ ID NO.26

48所示;步骤(5)中,所述多重PCR引物的序列如SEQ ID NO.3

25所示,SEQ ID NO.3

25序列添有高通量测序接头,反向序列如SEQ ID NO.2所示。4.根据权利要求3所述的方法,其特征在于:步骤(3)中,利用TCRβ的C端特异性引物进行反转录的步骤如下:

取0.1ug步骤(2)的RNA、1ul引物TRBC(10uM)、其余为水,配制成12ul的反应体系,然后于PCR仪中72℃孵育3min,迅速冰上5min;

将步骤

所得产物、4ul 5X first strand buffer、2ul dNTPs、1ul RNA酶抑制剂、1ul RevertAid逆转录酶,配制成20ul的反应体系,然后于PCR仪中42℃孵育60min,70℃孵育10min。5.根据权利要求3所述的方法,其特征在于:步骤(5)中,所述多重PCR引物的序列如SEQ ID N...

【专利技术属性】
技术研发人员:万瑛于海礼倪青山邹丽云韩清娟陈钢黄毅曾聪
申请(专利权)人:中国人民解放军陆军军医大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1