一种检测RNA跨样本交叉污染率的方法和装置制造方法及图纸

技术编号:24760400 阅读:154 留言:0更新日期:2020-07-04 10:09
本发明专利技术公开了一种检测RNA跨样本交叉污染率的方法和装置,其中,方法包括:获得待检测样本的测序数据与参考基因组之间的比对结果文件;从比对结果文件中筛选出覆盖多态性位点且表达量不低于设定阈值的持家基因蛋白质编码区域作为信息提取区间;利用信息提取区间、比对结果文件和遗传多态性位点信息数据库计算样本污染率。本发明专利技术通过筛选稳定表达的多态性位点作为污染率计算软件的输入,改进了该软件只能用于DNA污染率评估的不足,程序操作方便,分析速度快,自动化程度高,与标准品对比,分析结果可信度高,实现对RNA样本的质量评估,有助于后续分析的准确性。

A method and device for detecting RNA cross sample cross contamination rate

【技术实现步骤摘要】
一种检测RNA跨样本交叉污染率的方法和装置
本专利技术涉及跨样本交叉污染率的检测领域,具体涉及一种检测RNA跨样本交叉污染率的方法和装置。
技术介绍
肿瘤样本的基因表达谱是一个强有力的识别预后和预测的生物标志物。迄今为止,人们已经对大量的癌症冷冻组织样本进行转录谱分析,但由于长期随访临床病人肿瘤样本的新鲜冷冻组织不易收集和存储,因此福尔马林固定石蜡包埋组织(FFPE)便成为医学领域更广泛使用的生物材料。肿瘤样本的全基因组基因表达谱分析对于癌症研究不可或缺,并且也有助于进行广泛的回顾性临床基因组研究。但FFPE需要经过固定、石蜡包埋、切片及染色等步骤以免细胞组织降解,在上述制片操作,以及运输、存储和人为实验操作过程中,经常会出现污染的情况。污染主要有三个方面:跨个体、个体内和跨物种。目前RNA样本污染率评估基本都只能实现跨物种的污染评估,其主要方法是:通过将无法比对到参考基因组的序列比对NCBI数据库,计算微生物、植物、病毒等其它非人类物种的污染占比。关于跨个体的污染评估方式,现有技术中仅仅只公开有DNA样本污染率的评估方式,具体过程为:采用GATK软件ContEst通过单核苷酸多态位点信息计算人DNA二代测序数据中的交叉污染,通过提供测序样本的基因型信息(http://www.1000genomes.org),人群频率信息(ContEst提供)和测序样本的比对文件,使用贝叶斯方法计算后验概率的污染水平,确定最大后验概率估计的污染水平。上述软件主要用于DNA污染率的检测,申请人研究发现当采用上述软件进行RNA污染率检测时,由于RNA存在表达量不一致的问题,导致最终污染率的评估极其不准确。即,当检测RNA跨样本交叉污染率时,在不同的时间空间,不同样本、不同基因的表达量均有差异,会严重影响到单核苷酸多态位点的测序数据覆盖情况,进而影响污染率的评估,使最终的评估结果极其不准确。由于在人群样品间跨个体的RNA之间,即使是很小程度的交叉污染也会导致分析结果出现假阳性,特别是在对比肿瘤和正常组织RNA样本研究中,因此,人群样品间跨个体的RNA交叉污染更需要严格控制。而目前并没有相关软件或流程能够实现对跨个体的RNA交叉污染的准确评估。
技术实现思路
因此,本专利技术要解决的技术问题在于,克服现有技术中并没有能够实现跨个体的RNA交叉污染准确评估的方法和装置的缺陷,本专利技术提供一种评估更加准确的检测RNA跨样本交叉污染率的方法和装置。一种检测RNA跨样本交叉污染率的方法,包括:获得待检测样本的测序数据与参考基因组之间的比对结果文件;从比对结果文件中筛选出覆盖多态性位点且表达量不低于设定阈值的持家基因蛋白质编码区域作为信息提取区间;利用信息提取区间、比对结果文件和遗传多态性位点信息数据库计算样本污染率。所述信息提取区间的筛选步骤,包括:在持家基因数据库中选择持家基因蛋白质编码区域;然后根据多态性位点在基因组中的坐标信息,进而筛选出所有包含多态性位点的持家基因蛋白质编码区域;所述持家基因蛋白质编码区域中包含的多态性位点记为多态性位点Q;计算比对结果文件中基因的表达量,挑选出表达量不低于设定阈值的基因M,从多态性位点Q中挑选出落入所述基因M内的多态性位点P,采用覆盖多态性位点P的持家基因蛋白质编码区域作为信息提取区间。所述基因M优选为表达量不低于设定阈值的持家基因。上述从持家基因数据库中选择的持家基因蛋白质编码区域及其数量,可以根据不同样本在这些持家基因中能否搜索到多态性位点而进行调整,如果搜索不到,就更换持家基因蛋白质编码区域或增加数量。数量越小运行速度越快,但越小就越有可能最终找不到多态性位点,准确性降低,数目越大准确性越高但是运行速度越慢。理论上1-3800都可以满足本专利技术的需求,为了获得更高的准确性,优选从持家基因数据库中获取的2000-3800个持家基因进行后续分析。在比对结果文件获得后,可再通过降采样方法降低比对结果文件的数据量。通过数据量的降低,提高流程运行速度,减少内存损耗。所述降采样方法为:采用Samtools软件从比对结果文件中提取出覆盖多态性位点的持家基因蛋白质编码区域的测序读段;或者使用Picard软件对比对结果文件进行随机采样,得到随机提取的测序读段。污染率计算软件为ContEst软件或Conta软件;其中ContEst软件计算过程中采用--filter_reads_with_N_cigar参数来过滤包含无法识别的碱基的测序读段;Conta软件计算过程中通过--min_maf参数调节检出灵敏度。所述污染率计算软件为ContEst软件时,计算95%置信度的污染率置信区间宽度;所述污染率计算软件为Conta软件时,计算min_maf=0.05时的RNA跨样本交叉污染率。所述待检测样本是被不同个体的细胞混合的被污染RNA样本。一种检测RNA跨样本交叉污染率的装置,包括:检测模块,用于获取待检测样本的测序数据和参考基因组之间的比对结果文件,并从比对结果文件中筛选出覆盖多态性位点且表达量不低于设定阈值的持家基因蛋白质编码区域作为信息提取区间;污染率计算模块,用于通过信息提取区间、比对结果文件和遗传多态性位点信息数据库计算出样本污染率。所述检测模块包括:数据比对模块,用于将待检测样本的测序数据与参考基因组进行比对,得到比对结果文件;编码区域鉴定模块,用于从持家基因数据库中选择持家基因蛋白质编码区域;多态性位点鉴定模块,用于根据多态性位点在基因组中的坐标信息,筛选出所有包含多态性位点的持家基因蛋白质编码区域;所述持家基因蛋白质编码区域中包含的多态性位点记为多态性位点Q;筛选模块,用于获得比对结果文件中基因的表达量,并挑选出表达量不低于设定阈值的基因M,然后从多态性位点Q中挑选出落入基因M内的多态性位点P,采用覆盖多态性位点P的持家基因蛋白质编码区域作为信息提取区间。所述基因M为持家基因。所述检测模块中还包括降采样模块,用于减少比对结果文件中分析样本的数据量。本专利技术技术方案,具有如下优点:1.本专利技术提供的一种检测RNA跨样本交叉污染率的方法,能够有效地计算非本样本的其它人群样本污染占比,弥补了RNA跨样本交叉污染率评估方法的空白。同时,本专利技术中的持家基因又称管家基因,是指所有细胞中均要稳定表达的一类基因,其产物是对维持细胞基本生命活动所必需的。申请人研究发现,由于在计算RNA跨样本交叉污染率的过程中多态性位点的测序读长覆盖度会严重受到RNA表达量的影响,导致最终污染率的评估极其不准确,为解决上述问题,创新性的选择了稳定表达的持家基因作为评估RNA跨样本交叉污染率的目标基因。具体为:本专利技术通过从比对结果文件中筛选出覆盖多态性位点的持家基因蛋白质编码区域作为信息提取区间,再根据所选信息提取区间来计算样本污染率,可以有效减少不同样本不同基因表达量差异对污染率分析结果造成的影响,提高评估准确度;且通过实施例中的方法将检测得到的结果与标准品对比进一本文档来自技高网
...

【技术保护点】
1.一种检测RNA跨样本交叉污染率的方法,其特征在于,包括:/n获得待检测样本的测序数据与参考基因组之间的比对结果文件;/n从比对结果文件中筛选出覆盖多态性位点且表达量不低于设定阈值的持家基因蛋白质编码区域作为信息提取区间;/n利用信息提取区间、比对结果文件和遗传多态性位点信息数据库计算样本污染率。/n

【技术特征摘要】
1.一种检测RNA跨样本交叉污染率的方法,其特征在于,包括:
获得待检测样本的测序数据与参考基因组之间的比对结果文件;
从比对结果文件中筛选出覆盖多态性位点且表达量不低于设定阈值的持家基因蛋白质编码区域作为信息提取区间;
利用信息提取区间、比对结果文件和遗传多态性位点信息数据库计算样本污染率。


2.根据权利要求1所述的检测RNA跨样本交叉污染率的方法,其特征在于,所述信息提取区间的筛选步骤,包括:
在持家基因数据库中选择持家基因蛋白质编码区域;然后根据多态性位点在基因组中的坐标信息,进而筛选出所有包含多态性位点的持家基因蛋白质编码区域;所述持家基因蛋白质编码区域中包含的多态性位点记为多态性位点Q;
计算比对结果文件中基因的表达量,挑选出表达量不低于设定阈值的基因M,从多态性位点Q中挑选出落入所述基因M内的多态性位点P,覆盖多态性位点P的持家基因蛋白质编码区域作为信息提取区间。


3.根据权利要求1或2所述的检测RNA跨样本交叉污染率的方法,其特征在于,在比对结果文件获得后,可再通过降采样方法降低比对结果文件的数据量。


4.根据权利要求3所述的检测RNA跨样本交叉污染率的方法,其特征在于,所述降采样方法为:采用Samtools软件从比对结果文件中提取出覆盖多态性位点的持家基因蛋白质编码区域的测序读段;或者使用Picard软件对比对结果文件进行随机采样,得到随机提取的测序读段。


5.根据权利要求1-4任一项所述的检测RNA跨样本交叉污染率的方法,其特征在于,污染率计算软件为ContEst软件或Conta软件;其中ContEst软件计算过程中采用--filter_reads_with_N_cigar参数来过滤包含无法识别的碱基的测序读段;Conta软件计算过程中通过--m...

【专利技术属性】
技术研发人员:黄毅易鑫杨玲王申杰刘久成吴玲清王旭文
申请(专利权)人:北京吉因加医学检验实验室有限公司深圳吉因加医学检验实验室
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1