免疫受体条形码错误校正制造技术

技术编号:24421721 阅读:26 留言:0更新日期:2020-06-06 14:27
本文披露的是用于确定靶的出现的方法和系统。在一些实施例中,所述方法包括:对所述靶的推定序列进行折叠;对与所述靶的推定序列相关联的分子标记序列进行折叠;以及估计所述靶的出现,其中在对所述靶的推定序列的出现进行折叠并且对噪音分子标记序列的出现进行折叠之后,估计的所述靶的出现与跟所述测序数据中的所述靶的推定序列相关联的分子标记序列的出现相关。

Error correction of immunoreceptor barcode

【技术实现步骤摘要】
【国外来华专利技术】免疫受体条形码错误校正相关申请的交叉引用本申请要求于2017年9月25日提交的美国临时申请号62/562,978的优先权。相关申请的内容通过引用以其全文明确地并入本文。序列表的引用本申请是连同电子格式的序列表一起提交的。序列表被提供为题为Sequence_Listing_BDCRI_035WO.txt的文件,创建于2018年9月21日,大小是32千字节。将电子格式的序列表的信息通过引用以其全文并入本文。专利技术背景
本披露总体上涉及分子条形码化的领域,并更具体地涉及使用分子标记来校正取代错误和非取代错误。
技术介绍
诸如条形码化(包括随机条形码化)等方法和技术对于细胞分析是有用的,特别是使用例如逆转录、聚合酶链式反应(PCR)扩增、和下一代测序(NGS)来解密基因表达谱以确定细胞的状态。然而,这些方法和技术可能引入错误(诸如取代错误(例如,涉及一个或多个碱基取代的取代错误))和非取代错误(例如,引物交叉错误和PCR嵌合体错误),如果未校正,其可导致过高估计的分子计数。因此,需要能够校正各种错误的方法和技术以获得准确的分子计数。
技术实现思路
本文披露的内容包括用于确定靶的出现的方法。在一些实施例中,所述方法包括:(a)使用多个条形码(例如,随机条形码)使多个靶条形码化(例如,随机条形码化)以创建多个经条形码化的靶(例如,经随机条形码化的靶),其中,所述多个条形码中的每一个包括细胞标记和分子标记,其中,所述多个条形码中的至少两个条形码的分子标记包括不同的分子标记序列,并且其中所述多个条形码中的至少两个条形码包括具有相同的细胞标记序列的细胞标记;(b)获得所述经条形码化的靶的测序数据;以及(c)针对所述多个靶中的至少一个靶:(i)鉴定所述测序数据中的所述靶的推定序列;(ii)对与(i)中鉴定的所述测序数据中的所述靶的推定序列相关联的分子标记序列的出现进行计数;(iii)鉴定所述靶的推定序列的簇;(iv)使用(iii)中鉴定的所述靶的推定序列的簇对获得的测序数据进行折叠;(v)鉴定与所述靶的推定序列相关联的所述分子标记序列的簇;(vi)使用(v)中鉴定的所述分子标记序列的簇对所述测序数据进行折叠;(vii)鉴定组合序列的簇,其中,每个组合序列包括所述靶的序列中的序列以及所述分子标记序列中的相关联的分子标记序列;(viii)使用(vii)中鉴定的所述组合序列的簇对所述测序数据进行折叠;(ix)鉴定与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列,其中,与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列的出现小于不与所述靶的一个或多个嵌合序列相对应的所述靶的剩余一个或多个推定序列的出现;(x)从所述测序数据中去除(ix)中鉴定的与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列;以及(xi)估计所述靶的出现,其中,在(iv)、(vi)和(viii)对所述测序数据进行折叠并且在(x)中去除与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列后,估计的所述靶的出现与(ii)中计数的分子标记序列的数量相关。在一些实施例中,所述多个靶包括细胞的整个转录组的靶。所述多个靶可以包括基因。所述基因可以包括对免疫受体进行编码的可变序列,诸如可变(V)区、多样性(D)区、连接(J)区或其任何组合。所述基因可以是对T细胞受体进行编码的基因。所述靶的推定序列可以彼此相差至少一个核苷酸。在一些实施例中,鉴定所述靶的推定序列的簇包括使用定向邻接鉴定所述靶的推定序列的簇。簇内所述靶的推定序列可以在彼此的第一预定定向邻接阈值内。所述第一定向邻接阈值可以是汉明距离(Hammingdistance)。所述簇内所述靶的推定序列可以包括一个或多个亲本序列以及所述一个或多个亲本序列的一个或多个子序列,并且其中,所述亲本序列的出现大于或等于第一预定定向邻接出现阈值。所述第一预定定向邻接出现阈值可以是小于一的子序列的出现的两倍。在一些实施例中,使用(iii)中鉴定的所述靶的推定序列的簇对在(b)中获得的所述测序数据进行折叠包括:将所述一个或多个子序列中的子序列的出现归因于所述子序列的亲本序列。在一些实施例中,鉴定与所述靶的推定序列相关联的所述分子标记序列的簇包括使用定向邻接鉴定与所述靶的推定序列相关联的所述分子标记序列的簇。簇内所述靶的分子标记序列可以在彼此的第二预定定向邻接阈值内。所述第二定向邻接阈值可以是汉明距离。所述簇内所述靶的推定分子标记序列可以包括一个或多个亲本分子标记序列以及所述一个或多个亲本分子标记序列的一个或多个子分子标记序列,并且其中,所述亲本分子标记序列的出现大于或等于第二预定定向邻接出现阈值。所述第二预定定向邻接出现阈值可以是小于一的子分子标记序列的出现的两倍。在一些实施例中,使用(v)中鉴定的与所述靶的序列相关联的所述分子标记序列的簇对所述测序数据进行折叠包括:将所述一个或多个子分子标记序列中的子分子标记序列的出现归因于所述子分子标记序列的亲本分子标记。在一些实施例中,鉴定所述组合序列的簇包括使用定向邻接来鉴定所述组合序列的簇。簇内的组合序列可以在彼此的第三预定定向邻接阈值内。所述第三定向邻接阈值可以是汉明距离。所述簇内的所述组合序列可以包括一个或多个亲本组合序列以及所述一个或多个亲本组合序列的一个或多个子组合序列,并且其中,所述亲本组合序列的出现大于或等于第三预定定向邻接出现阈值。所述第三预定定向邻接出现阈值可以是小于一的子组合序列的出现的两倍。在一些实施例中,使用(vii)中鉴定的所述组合序列的簇对所述测序数据进行折叠包括:将所述一个或多个子组合序列中的子组合序列的出现归因于所述子组合序列的亲本组合序列。在一些实施例中,鉴定与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列:鉴定与所述多个分子序列中的一个分子标记序列相关联的所述靶的推定序列;鉴定与所述一个分子标记序列相关联的所述靶的推定序列中的推定序列,所述一个分子标记序列的出现小于与所述靶的一个或多个嵌合序列中的嵌合序列相对应的嵌合出现阈值。嵌合出现阈值的值可以是与一个分子标记序列相关联的所述靶的推定序列中的推定序列的出现,所述出现大于所述靶的推定序列中的任何其他序列的出现。在一些实施例中,所述方法进一步包括:在(iv)、(vi)和(viii)中对所述测序数据进行折叠并且在(x)中去除与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列后调整所述测序数据。在(iv)、(vi)和(viii)对所述测序数据进行折叠并且在(x)中去除与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列后调整所述测序数据可以包括:在(iv)、(vi)和(viii)中对所述测序数据进行折叠并且在(x)中去除与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列后,将与所述靶的推定序列相关联的分子标记序列阈值化,以确定与(b)中计数的所述测序数据中的所述靶的序列相关联的信号分子标记序列和噪音分子标记序列。将与所述靶的推定序列相关本文档来自技高网...

【技术保护点】
1.一种用于确定靶的出现的方法,所述方法包括:/n(a)使用多个随机条形码使多个靶随机条形码化以创建多个经随机条形码化的靶,其中所述多个随机条形码中的每个包括细胞标记和分子标记,其中所述多个随机条形码中的至少两个随机条形码的分子标记包括不同的分子标记序列,其中所述多个随机条形码中的至少两个随机条形码包括具有相同细胞标记序列的细胞标记;/n(b)获得所述经随机条形码化的靶的测序数据;以及/n(c)对于所述多个靶中的至少一个靶:/n(i)鉴定所述测序数据中的所述靶的推定序列;/n(ii)对与(i)中鉴定的所述测序数据中的所述靶的推定序列相关联的分子标记序列的出现进行计数;/n(iii)鉴定所述靶的推定序列的簇;/n(iv)使用(iii)中鉴定的所述靶的推定序列的簇对获得的测序数据进行折叠;/n(v)鉴定与所述靶的推定序列相关联的所述分子标记序列的簇;/n(vi)使用(v)中鉴定的所述分子标记序列的簇对所述测序数据进行折叠;/n(vii)鉴定组合序列的簇,其中,每个组合序列包括所述靶的序列中的序列以及所述分子标记序列中的相关联的分子标记序列;/n(viii)使用(vii)中鉴定的所述组合序列的簇对所述测序数据进行折叠;/n(ix)鉴定与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列,其中,与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列的出现小于不与所述靶的一个或多个嵌合序列相对应的所述靶的剩余一个或多个推定序列的出现;/n(x)从所述测序数据中去除(ix)中鉴定的与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列;以及/n(xi)估计所述靶的出现,其中,在(iv)、(vi)和(viii)中对所述测序数据进行折叠并且在(x)中去除与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列后,估计的所述靶的出现与(ii)中计数的分子标记序列的数量相关。/n...

【技术特征摘要】
【国外来华专利技术】20170925 US 62/562,9781.一种用于确定靶的出现的方法,所述方法包括:
(a)使用多个随机条形码使多个靶随机条形码化以创建多个经随机条形码化的靶,其中所述多个随机条形码中的每个包括细胞标记和分子标记,其中所述多个随机条形码中的至少两个随机条形码的分子标记包括不同的分子标记序列,其中所述多个随机条形码中的至少两个随机条形码包括具有相同细胞标记序列的细胞标记;
(b)获得所述经随机条形码化的靶的测序数据;以及
(c)对于所述多个靶中的至少一个靶:
(i)鉴定所述测序数据中的所述靶的推定序列;
(ii)对与(i)中鉴定的所述测序数据中的所述靶的推定序列相关联的分子标记序列的出现进行计数;
(iii)鉴定所述靶的推定序列的簇;
(iv)使用(iii)中鉴定的所述靶的推定序列的簇对获得的测序数据进行折叠;
(v)鉴定与所述靶的推定序列相关联的所述分子标记序列的簇;
(vi)使用(v)中鉴定的所述分子标记序列的簇对所述测序数据进行折叠;
(vii)鉴定组合序列的簇,其中,每个组合序列包括所述靶的序列中的序列以及所述分子标记序列中的相关联的分子标记序列;
(viii)使用(vii)中鉴定的所述组合序列的簇对所述测序数据进行折叠;
(ix)鉴定与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列,其中,与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列的出现小于不与所述靶的一个或多个嵌合序列相对应的所述靶的剩余一个或多个推定序列的出现;
(x)从所述测序数据中去除(ix)中鉴定的与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列;以及
(xi)估计所述靶的出现,其中,在(iv)、(vi)和(viii)中对所述测序数据进行折叠并且在(x)中去除与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列后,估计的所述靶的出现与(ii)中计数的分子标记序列的数量相关。


2.如权利要求1所述的方法,其中,所述多个靶包括细胞的整个转录组的靶。


3.如权利要求2所述的方法,其中,所述多个靶包括基因。


4.如权利要求3所述的方法,其中,所述基因包括可变序列。


5.如权利要求4所述的方法,其中,所述基因对T细胞受体进行编码。


6.如权利要求1至5中任一项所述的方法,其中,所述靶的推定序列彼此相差至少一个核苷酸。


7.如权利要求1至6中任一项所述的方法,其中,鉴定所述靶的推定序列的簇包括使用定向邻接鉴定所述靶的推定序列的簇。


8.如权利要求7所述的方法,其中,簇内所述靶的推定序列在彼此的第一预定定向邻接阈值内。


9.如权利要求8所述的方法,其中,所述第一定向邻接阈值是汉明距离。


10.如权利要求8至9中任一项所述的方法,其中,所述簇内的所述靶的推定序列包括一个或多个亲本序列以及所述一个或多个亲本序列的一个或多个子序列,并且其中,所述亲本序列的出现大于或等于第一预定定向邻接出现阈值。


11.如权利要求10所述的方法,其中,所述第一预定定向邻接出现阈值是小于一的子序列的出现的两倍。


12.如权利要求1至11中任一项所述的方法,其中,使用(iii)中鉴定的所述靶的推定序列的簇对在(b)中获得的所述测序数据进行折叠包括:
将所述一个或多个子序列中的子序列的出现归因于所述子序列的亲本序列。


13.如权利要求1至12中任一项所述的方法,其中,鉴定与所述靶的推定序列相关联的所述分子标记序列的簇包括使用定向邻接鉴定与所述靶的推定序列相关联的所述分子标记序列的簇。


14.如权利要求13所述的方法,其中,簇内所述靶的分子标记序列在彼此的第二预定定向邻接阈值内。


15.如权利要求14所述的方法,其中,所述第二定向邻接阈值是汉明距离。


16.如权利要求14至15中任一项所述的方法,其中,所述簇内的所述靶的推定分子标记序列包括一个或多个亲本分子标记序列以及所述一个或多个亲本分子标记序列的一个或多个子分子标记序列,并且其中所述亲本分子标记序列的出现大于或等于第二预定定向邻接出现阈值。


17.如权利要求16所述的方法,其中,所述第二预定定向邻接出现阈值是小于一的子分子标记序列的出现的两倍。


18.如权利要求1至17中任一项所述的方法,其中,使用(v)中鉴定的与所述靶的序列相关联的所述分子标记序列的簇对所述测序数据进行折叠包括:
将所述一个或多个子分子标记序列中的子分子标记序列的出现归因于所述子分子标记序列的亲本分子标记。


19.如权利要求1至18中任一项所述的方法,其中,鉴定所述组合序列的簇包括使用定向邻接来鉴定组合序列的簇。


20.如权利要求19所述的方法,其中,簇内的组合序列在彼此的第三预定定向邻接阈值内。


21.如权利要求20所述的方法,其中,所述第三定向邻接阈值是汉明距离。


22.如权利要求20至21中任一项所述的方法,其中,所述簇内的所述组合序列包括一个或多个亲本组合序列以及所述一个或多个亲本组合序列的一个或多个子组合序列,并且其中所述亲本组合序列的出现大于或等于第三预定定向邻接出现阈值。


23.如权利要求22所述的方法,其中,所述第三预定定向邻接出现阈值是小于一的子组合序列的出现的两倍。


24.如权利要求1至23中任一项所述的方法,其中,使用(vii)中鉴定的所述组合序列的簇对所述测序数据进行折叠包括:
将所述一个或多个子组合序列中的子组合序列的出现归因于所述子组合序列的亲本组合序列。


25.如权利要求1至24中任一项所述的方法,其中,鉴定与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列:
鉴定与所述多个分子序列中的一个分子标记序列相关联的所述靶的推定序列;
鉴定与所述一个分子标记序列相关联的所述靶的推定序列中的推定序列,所述一个分子标记序列的出现小于与所述靶的一个或多个嵌合序列中的嵌合序列相对应的嵌合出现阈值。


26.如权利要求25所述的方法,其中,所述嵌合出现阈值的值是与所述一个分子标记序列相关联的所述靶的推定序列中的推定序列的出现,所述出现大于所述靶的推定序列中的任何其他序列的出现。


27.如权利要求1至26中任一项所述的方法,所述方法进一步包括:
在(iv)、(vi)和(viii)中对所述测序数据进行折叠并且在(x)中去除与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列后调整所述测序数据。


28.如权利要求27所述的方法,其中,在(iv)、(vi)和(viii)中对所述测序数据进行折叠并且在(x)中去除与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列后调整所述测序数据包括:
在(iv)、(vi)和(viii)中对所述测序数据进行折叠并且在(x)中去除与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列后,将与所述靶的推定序列相关联的分子标记序列阈值化,以确定与(b)中计数的所述测序数据中的所述靶的序列相关联的信号分子标记序列和噪音分子标记序列。


29.如权利要求28所述的方法,其中,将与所述靶的推定序列相关联的所述分子标记序列阈值化包括对所述靶的所述分子标记序列进行统计分析。


30.如权利要求29所述的方法,其中,进行所述统计分析包括:
将与所述靶的推定序列相关联的所述分子标记序列及其出现拟合至两个负二项分布;
使用所述两个负二项分布来确定信号分子标记序列的出现n;以及
在(iv)、(vi)和(viii)中对所述测序数据进行折叠并且在(x)中去除与所述靶的一个或多个嵌合序列相对应的所述靶的一个或多个推定序列后,从在(b)中获得的测序数据去除所述噪音分子标记序列,其中所述噪音分子标记序列包括其出现小于第n个最丰富分子标记的出现的分子标记序列,并且其中所述信号分子标记序列包括其出现大于或等于第n个最丰富分子标记的出现的分子标记序列。


31.如权利要求30所述的方法,其中,所述两个负二项分布包括与所述信号分子标记序列相对应的第一负二项分布以及与所述噪音分子标记序列相对应的第二负二项分布。


32.一种用于确定靶的出现的方法,所述方法包括:
(a)接收多个靶的测序数据,其中所述测序数据包括所述多个靶中的靶的推定序列以及与所述测序数据中的所述靶的序列相关联的分子标记序列的出现;
(b)对所述靶的推定序列进行折叠;
(c)对与所述靶的推定序列相关联的分子标记序列进行折叠;以及
(d)估计所述靶的出现,其中在(b)中对所述靶的推定序列的出现进行折叠并且对在(c)中确定的噪音分子标记序列的出现进行折叠之后,估计的所述靶的出现与跟所述测序数据中的所述靶的推定序列相关联的分子标记序列的出现相关。


33.如权利要求32所述的方法,所述方法包括:
鉴定所述测序数据中的所述靶的序列;以及
对与所述测序数据中的所述靶的序列相关联的分子标记序列的出现进行计数。


34.如权利要求32至33中任一项所述的方法,所述包括:
对组合序列的簇进行折叠,其中,每个组合序列包括所述靶的序列中的序列以及所述分子标记序列中的相关联的分子标记序列,
其中,在对所述组合序列的出现进行折叠后,估计的所述靶的出现与跟所述测序数据中的所述靶的序列相关联的分子标记序列的出现相关。


35.如权利要求34所述的方法,其中,对所述组合序列的簇进行折叠包括:使用定向邻接对所述组合序列的簇进行折叠。


36.如权利要求35所述的方法,其中,使用定向邻接对所述组合序列的簇进行折叠包括:
使用定向邻接鉴定所述组合序列的簇;以及
使用鉴定的所述组合序列的簇对所述测序数据进行折叠。


37.如权利要求32至36中任一项所述的方法,其中,对所述靶的推定序列进行折叠包括:使用定向邻接对所述靶的推定序列进行折叠。


38.如权利要求37所述的方法,其中,使用定向邻接对所述靶的推定序列进行折叠包括:
使用定向邻接鉴定所述靶的推定序列的簇;以及
使用鉴定的所述靶的推定序列的簇对所述测序数据进行折叠。


39.如权利要求32至38中任一项所述的方法,其中,对与所述靶的推...

【专利技术属性】
技术研发人员:艾琳·夏姆范珏詹尼弗·蔡
申请(专利权)人:贝克顿迪金森公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1