【技术实现步骤摘要】
一种检测RNA跨样本交叉污染率的方法和装置
本专利技术涉及跨样本交叉污染率的检测领域,具体涉及一种检测RNA跨样本交叉污染率的方法和装置。
技术介绍
肿瘤样本的基因表达谱是一个强有力的识别预后和预测的生物标志物。迄今为止,人们已经对大量的癌症冷冻组织样本进行转录谱分析,但由于长期随访临床病人肿瘤样本的新鲜冷冻组织不易收集和存储,因此福尔马林固定石蜡包埋组织(FFPE)便成为医学领域更广泛使用的生物材料。肿瘤样本的全基因组基因表达谱分析对于癌症研究不可或缺,并且也有助于进行广泛的回顾性临床基因组研究。但FFPE需要经过固定、石蜡包埋、切片及染色等步骤以免细胞组织降解,在上述制片操作,以及运输、存储和人为实验操作过程中,经常会出现污染的情况。污染主要有三个方面:跨个体、个体内和跨物种。目前RNA样本污染率评估基本都只能实现跨物种的污染评估,其主要方法是:通过将无法比对到参考基因组的序列比对NCBI数据库,计算微生物、植物、病毒等其它非人类物种的污染占比。关于跨个体的污染评估方式,现有技术中仅仅只公开有DNA样本污染率的评 ...
【技术保护点】
1.一种检测RNA跨样本交叉污染率的方法,其特征在于,包括:/n获得待检测样本的测序数据与参考基因组之间的比对结果文件;/n从比对结果文件中筛选出覆盖多态性位点且表达量不低于设定阈值的持家基因蛋白质编码区域作为信息提取区间;/n利用信息提取区间、比对结果文件和遗传多态性位点信息数据库计算样本污染率。/n
【技术特征摘要】
1.一种检测RNA跨样本交叉污染率的方法,其特征在于,包括:
获得待检测样本的测序数据与参考基因组之间的比对结果文件;
从比对结果文件中筛选出覆盖多态性位点且表达量不低于设定阈值的持家基因蛋白质编码区域作为信息提取区间;
利用信息提取区间、比对结果文件和遗传多态性位点信息数据库计算样本污染率。
2.根据权利要求1所述的检测RNA跨样本交叉污染率的方法,其特征在于,所述信息提取区间的筛选步骤,包括:
在持家基因数据库中选择持家基因蛋白质编码区域;然后根据多态性位点在基因组中的坐标信息,进而筛选出所有包含多态性位点的持家基因蛋白质编码区域;所述持家基因蛋白质编码区域中包含的多态性位点记为多态性位点Q;
计算比对结果文件中基因的表达量,挑选出表达量不低于设定阈值的基因M,从多态性位点Q中挑选出落入所述基因M内的多态性位点P,覆盖多态性位点P的持家基因蛋白质编码区域作为信息提取区间。
3.根据权利要求1或2所述的检测RNA跨样本交叉污染率的方法,其特征在于,在比对结果文件获得后,可再通过降采样方法降低比对结果文件的数据量。
4.根据权利要求3所述的检测RNA跨样本交叉污染率的方法,其特征在于,所述降采样方法为:采用Samtools软件从比对结果文件中提取出覆盖多态性位点的持家基因蛋白质编码区域的测序读段;或者使用Picard软件对比对结果文件进行随机采样,得到随机提取的测序读段。
5.根据权利要求1-4任一项所述的检测RNA跨样本交叉污染率的方法,其特征在于,污染率计算软件为ContEst软件或Conta软件;其中ContEst软件计算过程中采用--filter_reads_with_N_cigar参数来过滤包含无法识别的碱基的测序读段;Conta软件计算过程中通过--m...
【专利技术属性】
技术研发人员:黄毅,易鑫,杨玲,王申杰,刘久成,吴玲清,王旭文,
申请(专利权)人:北京吉因加医学检验实验室有限公司,深圳吉因加医学检验实验室,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。