临床检测样本的质控方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37123933 阅读:16 留言:0更新日期:2023-04-01 05:20
本申请公开了一种临床检测样本的质控方法、装置、电子设备及存储介质,所属的技术领域为高通量测序技术。所述临床检测样本的质控方法,包括:对原始FASTQ数据文件进行质控过滤得到目标FASTQ数据文件;将目标FASTQ数据文件与参考基因组序列文件进行比对,得到BAM文件;根据BAM文件确定比对率、rRNA含量和globin RNA含量;利用BAM文件进行测序深度检测,得到基因3

【技术实现步骤摘要】
临床检测样本的质控方法、装置、电子设备及存储介质


[0001]本申请涉及高通量测序
,特别涉及一种临床检测样本的质控方法、装置、电子设备及存储介质。

技术介绍

[0002]通过对血液样本进行RNA测序可以辅助分析人体生理和健康状况,但是在实际应用中临床检测样本的质量受到多种因素的影响,当出现临床检测样本被污染、或提取临床检测样本的操作流程不规范的情况时,临床检测样本的质量较差。
[0003]因此,如何对临床检测样本的质量进行准确检测,提高数据的有效性是本领域技术人员目前需要解决的技术问题。

技术实现思路

[0004]本申请的目的是提供一种临床检测样本的质控方法、一种临床检测样本的质控装置、一种电子设备及一种存储介质,能够对临床检测样本的质量进行准确检测,提高数据的有效性。
[0005]为解决上述技术问题,本申请提供一种临床检测样本的质控方法,该临床检测样本的质控方法包括:
[0006]对临床检测样本进行RNA测序获得原始FASTQ数据文件,对所述原始FASTQ数据文件进行质控过滤得到目标FASTQ数据文件;
[0007]将所述目标FASTQ数据文件与参考基因组序列文件进行比对,得到BAM文件;
[0008]根据所述BAM文件确定比对率、rRNA(核糖体RNA)含量和globin RNA(珠蛋白RNA)含量;
[0009]利用所述BAM文件进行测序深度检测,得到基因3

端测序深度和基因5

端测序深度;
[0010]对所述临床检测样本进行多种测序策略得到的多种测序数据进行一致性检验,得到一致性检验结果;
[0011]根据所述比对率、所述rRNA含量、所述globin RNA含量、所述基因3

端测序深度、所述基因5

端测序深度、以及所述一致性检验结果生成所述临床检测样本的质控结果。
[0012]可选的,对所述原始FASTQ数据文件进行质控过滤得到目标FASTQ数据文件,包括:
[0013]去除所述原始FASTQ数据文件中的目标接头序列和低质量序列,得到所述目标FASTQ数据文件;
[0014]其中,所述低质量序列包括质量值低于质量值阈值的序列和长度小于长度阈值的序列。
[0015]可选的,将所述目标FASTQ数据文件与参考基因组序列文件进行比对,得到BAM文件,包括:
[0016]获取FASTA格式的所述参考基因组序列文件,创建所述参考基因组序列文件的索
引序列,将所述目标FASTQ数据文件与所述索引序列进行比对,得到所述BAM文件。
[0017]可选的,根据所述BAM文件确定比对率,包括:
[0018]根据所述BAM文件确定比对到所述参考基因组序列文件的目标序列;
[0019]将所述目标序列在所述目标FASTQ数据文件中所有序列的比例设置为所述比对率。
[0020]可选的,在根据所述BAM文件确定比对率之后,还包括:
[0021]若所述比对率小于第一阈值,则生成判定所述临床检测样本不合格的质控结果。
[0022]可选的,在根据所述BAM文件确定rRNA含量和globin RNA含量之前,还包括:
[0023]确定所述参考基因组序列文件中的rRNA序列坐标和globin RNA序列坐标;
[0024]按照所述rRNA序列坐标和所述globin RNA序列坐标统计N个对照血液样本中的对照rRNA含量和对照globin RNA含量;
[0025]根据N个所述对照血液样本的对照rRNA含量确定第一标准含量区间;
[0026]根据N个所述对照血液样本的对照globin RNA含量确定第二标准含量区间;
[0027]相应的,在根据所述BAM文件确定rRNA含量和globin RNA含量之后,还包括:
[0028]若所述rRNA含量不在所述第一标准含量区间内,则生成判定所述临床检测样本不合格的质控结果;
[0029]若所述globin RNA含量不在所述第二标准含量区间内,则生成判定所述临床检测样本不合格的质控结果。
[0030]可选的,在利用对照血液样本和基因组注释文件对所述BAM文件进行测序深度比对之前,还包括:
[0031]利用基因组注释文件获取基因3

端位置信息和基因5

端位置信息;
[0032]根据所述基因3

端位置信息确定M个对照血液样本中的基因3

端平均测序深度,并根据所述基因5

端位置信息确定M个所述对照血液样本中的基因5

端平均测序深度;
[0033]将同一基因对应的基因3

端平均测序深度与基因5

端平均测序深度的比值设置为特征值;
[0034]利用KMeans算法对所述特征值进行建模得到聚类模型,并根据肘部法确定所述聚类模型的聚类个数;
[0035]根据所述聚类模型确定距离阈值;
[0036]相应的,利用所述BAM文件进行测序深度检测,得到基因3

端测序深度和基因5

端测序深度之后,还包括:
[0037]将所述基因3

端测序深度和所述基因5

端测序深度的比值设置为样本特征值;
[0038]计算所述样本特征值与所述聚类模型的聚类中心的欧氏距离;
[0039]若所述欧式距离大于所述距离阈值,则生成判定所述临床检测样本不合格的质控结果。
[0040]可选的,根据所述比对率、所述rRNA含量、所述globin RNA含量、所述基因3

端测序深度、基因5

端测序深度、以及所述一致性检验结果生成所述临床检测样本的质控结果,包括:
[0041]计算所述比对率对应的第一得分;
[0042]计算所述rRNA含量对应的第二得分;
[0043]计算所述globin RNA含量对应的第三得分;
[0044]计算所述基因3

端测序深度和基因5

端测序深度对应的第四得分;
[0045]计算所述一致性检验结果对应的第五得分;
[0046]将所述第一得分、所述第二得分、所述第三得分、所述第四得分和所述第五得分的总和设置为样本总得分,根据所述样本总得分生成所述临床检测样本的质控结果。
[0047]本申请还提供了一种临床检测样本的质控装置,该装置包括:
[0048]原始数据质控模块,用于对临床检测样本进行RNA测序获得原始FASTQ数据文件,对所述原始FASTQ数据文件进行质控过滤得到目标FASTQ数据文件;
[0049]映射文件构建模块,用于将所述目标FASTQ数据文件与参考基因组序列文件进行比对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种临床检测样本的质控方法,其特征在于,包括:对临床检测样本进行RNA测序获得原始FASTQ数据文件,对所述原始FASTQ数据文件进行质控过滤得到目标FASTQ数据文件;将所述目标FASTQ数据文件与参考基因组序列文件进行比对,得到BAM文件;根据所述BAM文件确定比对率、rRNA含量和globin RNA含量;利用所述BAM文件进行测序深度检测,得到基因3

端测序深度和基因5

端测序深度;对所述临床检测样本进行多种测序策略得到的多种测序数据进行一致性检验,得到一致性检验结果;根据所述比对率、所述rRNA含量、所述globin RNA含量、所述基因3

端测序深度、所述基因5

端测序深度、以及所述一致性检验结果生成所述临床检测样本的质控结果。2.根据权利要求1所述临床检测样本的质控方法,其特征在于,对所述原始FASTQ数据文件进行质控过滤得到目标FASTQ数据文件,包括:去除所述原始FASTQ数据文件中的目标接头序列和低质量序列,得到所述目标FASTQ数据文件;其中,所述低质量序列包括质量值低于质量值阈值的序列和长度小于长度阈值的序列。3.根据权利要求1所述临床检测样本的质控方法,其特征在于,将所述目标FASTQ数据文件与参考基因组序列文件进行比对,得到BAM文件,包括:获取FASTA格式的所述参考基因组序列文件,创建所述参考基因组序列文件的索引序列,将所述目标FASTQ数据文件与所述索引序列进行比对,得到所述BAM文件。4.根据权利要求1所述临床检测样本的质控方法,其特征在于,根据所述BAM文件确定比对率,包括:根据所述BAM文件确定比对到所述参考基因组序列文件的目标序列;将所述目标序列在所述目标FASTQ数据文件中所有序列的比例设置为所述比对率。5.根据权利要求1所述临床检测样本的质控方法,其特征在于,在根据所述BAM文件确定比对率之后,还包括:若所述比对率小于第一阈值,则生成判定所述临床检测样本不合格的质控结果。6.根据权利要求1所述临床检测样本的质控方法,其特征在于,在根据所述BAM文件确定rRNA含量和globin RNA含量之前,还包括:确定所述参考基因组序列文件中的rRNA序列坐标和globin RNA序列坐标;按照所述rRNA序列坐标和所述globin RNA序列坐标统计N个对照血液样本中的对照rRNA含量和对照globin RNA含量;根据N个所述对照血液样本的对照rRNA含量确定第一标准含量区间;根据N个所述对照血液样本的对照globin RNA含量确定第二标准含量区间;相应的,在根据所述BAM文件确定rRNA含量和globin RNA含量之后,还包括:若所述rRNA含量不在所述第一标准含量区间内,则生成判定所述临床检测样本不合格的质控结果;若所述globin RNA含量不在所述第二标准含量区间内,则生成判定所述临床检测样本不合格的质控结果。
7.根据权利要求1所述临床检测样本的质控方法,其特征在于,在利用对照血液样本和基因组注释文件对所述BAM文件进行测序深度比对之前,还包括:利用基因组注释文件获取基因3

端位置信息和基因5

端位置信息;根据所述基因3

端位置信息确定M个对照血液样本中的基因3

【专利技术属性】
技术研发人员:刘青山王佳鲍成佳余伟师梁萌萌
申请(专利权)人:赛福解码北京基因科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1