一种HPV精确分型的生物信息学分析方法及系统技术方案

技术编号:23864317 阅读:181 留言:0更新日期:2020-04-18 15:48
本发明专利技术公开了一种HPV精确分型的生物信息学分型方法及系统,所述方法包括:接收高通量测序技术得到的测序片段,得到每个样本的reads序列;将所有样本的reads序列进行分组聚类,将聚类后的reads序列与HPV参考序列集进行比对和筛选,确定筛选后的reads序列的匹配结果;对确定HPV型别的reads序列采用LDA模型进行HPV分型,最终确认每个reads序列的HPV型别。

A bioinformatics analysis method and system for accurate typing of HPV

【技术实现步骤摘要】
【国外来华专利技术】一种HPV精确分型的生物信息学分析方法及系统
本专利技术属于生物信息学领域,涉及一种HPV精确分型的生物信息学分析方法及系统。
技术介绍
人乳头瘤病毒(HPV)是一种嗜上皮性病毒,属于乳多空病毒科的乳头瘤空泡病毒A属,是球形DNA病毒,能引起人体皮肤黏膜的鳞状上皮增殖。至今,被分离出的HPV已经有170多种,根据侵犯的组织部位和致病强弱不同可分为四类:(1)皮肤低危型(如HPV2、3、7、10等)可以引起皮肤疣;(2)皮肤高危型(如HPV5、20、38等)可以引起良性皮肤疣,光化性角化病,非黑瘤皮肤癌等;(3)黏膜低危型(如HPV6、11、13、32等)可以引起良性生殖器湿疣;(4)黏膜高危型(如HPV16、18、31、33等)可以引发恶性肿瘤,诱发的癌症数量占人类所有癌症数量的5%,相当于病毒诱发的所有癌症数量的1/3。其中,HPV16恶性程度最高,在世界范围内,约50%的宫颈癌是由HPV16引起的。宫颈癌是最常见的妇科肿瘤,也是威胁女性生命安全的第二大恶性肿瘤。2012年,约有528,000例宫颈癌病例,死亡人数达266,000人。约70%的宫颈癌发生在发展中国家。据统计,约70%的宫颈癌是由HPV16和HPV18感染所致。因此精准高效的进行HPV型别鉴定是有效预防宫颈癌的重要手段,也是降低女性死亡率的一个重要举措。目前,用于HPV基因分型的检测方法主要是分子生物学方法,大致包括三种:(1)核酸杂交检测法,包括Southern印迹,原位杂交和斑点印记杂交等,其中Southern印迹法是HPV基因分型的金标准,同时HPV的存在可以与形态学联系起来,但是这种方法灵敏度低,耗时长,纯化DNA的起始量大,并且不适用于容易降解的DNA的检测;(2)信号放大检测法,包括HPV和HC2,这种方法可以进行HPV定量检测,也是FDA批准的检测方法,假阳性率低,灵敏度高,但是这种方法受专利的限制,需要得到许可才能使用,同时不适合HPV特定型别的鉴定及多重HPV感染的检测;(3)核酸扩增检测法,包括微阵列分析,PCR,PCR-RFLP,Real-time PCR,Abbott Real-time PCR,HPV genome sequencing等,这种方法在病毒载量和基因型方面比较灵活,有非常高的灵敏度,且可以进行多样本检测,但是对某些特定型别的HPV的扩增信号较低,先前放大的材料污染可能导致假阳性。201080070484.7公开了一种HPV精确分型的生物学分析的方法及系统,该方法将高通量测序获得的测序片段进行分组,与参考基因组序列进行比对后确定序列片段的HPV型别或阴性,对确定型别的序列片段按照样本进行合并,根据确定型别的序列片段的数量和比例进行筛选,最终确定每个样本的HPV型别或者确定为阴性。该方法利用生物信息学的分析方法及技术手段,实现了快速检测大量样本、快速完成对感染HPV型别的检测,然而在型别鉴定过程中,需要将每个样品的序列数量按比例缩放到文库的测序量为理想情况下的平均测序量,然后根据支持HPV型别的序列片段数占总序列片段数的比例是否达到预定阈值来判断是否感染了该型别,该过程中不仅修改了每个样品的总序列片段数,而且仅根据比例是否达到预定阈值来判断是否感染了该型别,判断依据较为单薄无力,因此并不能实现对HPV的精确分型。此外,该方法的型别判别标准采用的是绝对序列片段数,受样本绝对数据量的影响较大,假阳性率较高。因此,提供一种高精准、高灵敏度、高特异性、低假阴性率和低假阳性率的HPV分型检测技术成为本领域亟待解决的问题。
技术实现思路
针对上述问题,本专利技术提供一种HPV精确分型的生物信息学分析方法及系统,以克服现有技术精确度差、灵敏度低、特异性差、假阴性率和假阳性率高的缺点。本专利技术提供一种HPV精确分型的生物信息学分析方法,包括以下步骤:1)接收高通量测序技术(NGS)得到的测序片段,得到reads序列;2)将reads序列进行分组聚类,得到每个样本的reads序列;3)将每个样本的reads序列与HPV参考序列集进行比对和筛选,确定筛选后的reads序列的匹配结果(即每个样本中的总reads数、比对上的reads数、未比对上的reads数;在比对上的reads中,与HBB比对上的reads数和各HPV分型的reads数),并进行统计;4)对确定HPV型别的reads序列采用LDA模型进行HPV分型,最终确认每个reads序列的HPV型别。在LDA模型(Linear Discriminant Analysis)的分类分析中,假设在阴性、阳性两个分类(y=0与y=1)中特征值矢量均为正态分布,分别具有均值μ0,1与协方差矩阵∑,且两分类的先验概率为π0,1,则贝叶斯分类器可表示为如下形式:对给定特征值x的某样本,若阳性的后验概率则将对象归为阳性(y=1),否则归为阴性(y=0),其中C=0.5为阈值。实际分析时,上述假设不可能严格成立,且全体的均值μ0,1与协方差矩阵∑是未知量,因而上述贝叶斯分类器是无法获得的。然而,在上述假设近似成立的情况下,可由样本估计均值与协方差矩阵仍然应用上述公式进行分类,此即LDA模型。此时阈值C可依据需要调节,例如进行相关检测时降低假阴性率比降低假阳性率更重要,则应选用C<0.5的值。根据需求,在本专利技术中可考虑的模型有逻辑回归模型、LDA模型、QDA模型等。但结合数据特点,在两个分类(感染与未感染)特征值相差较远的情况下,逻辑回归有模型不稳定的缺点。然而,因为LDA的分类边界为(高维)平面,而QDA的分类边界为曲面,特征值大幅随机波动对LDA的影响要远小于对QDA的影响。鉴于实验上无法消除特征值的大幅随机波动,本专利技术选择LDA模型进行型别的判定。在分类问题中,一般假阳性率(FPR)下降则假阴性率(FNR)上升,反之亦然。因此,在本专利技术中,阈值的选择依据是在保证假阴性率小于5%的前提下,尽量降低假阴性率与假阳性率之和。优选地,假阴性率和假阳性率之和为7%~10%,本专利技术的一个实施例中,假阴性率和假阳性率之和为10%。优选地,所述分析方法还包括预处理的步骤;优选地,所述预处理步骤具体包括:对高通量测序技术得到的序列片段进行过滤,除去不合格的序列,以进一步降低不合格序列的影响,进一步提高检测分析的准确性,从而得到“干净的”序列。优选地,所述过滤具体包括以下步骤:a)预设不合格碱基的测序质量阈值和比例阈值;b)当reads序列中碱基的测序质量低于所述测序质量阈值,且低于测序质量阈值的碱基个数占整条序列碱基个数的比例超过所述比例阈值时,将该reads序列判定为不合格序列并加以过滤;否则,进入步骤c);c)当reads序列的测序结果中不确定的碱基个数超过整条序列碱基个数的10%时,将该reads序列判定为不合格序列并加以过滤;否则,进入步骤d);d)本文档来自技高网
...

【技术保护点】
一种HPV精确分型的生物信息学分析方法,其特征在于,所述分析方法包括以下步骤:/n1)接收高通量测序技术得到的测序片段,得到reads序列;/n2)将reads序列进行分组聚类,得到每个样本的reads序列;/n3)将每个样本的reads序列与HPV参考序列集进行比对和筛选,确定筛选后的reads序列的匹配结果,并进行统计;/n4)对确定HPV型别的reads序列采用LDA模型进行HPV分型,最终确认每个reads序列的HPV型别。/n

【技术特征摘要】
【国外来华专利技术】一种HPV精确分型的生物信息学分析方法,其特征在于,所述分析方法包括以下步骤:
1)接收高通量测序技术得到的测序片段,得到reads序列;
2)将reads序列进行分组聚类,得到每个样本的reads序列;
3)将每个样本的reads序列与HPV参考序列集进行比对和筛选,确定筛选后的reads序列的匹配结果,并进行统计;
4)对确定HPV型别的reads序列采用LDA模型进行HPV分型,最终确认每个reads序列的HPV型别。


根据权利要求1所述的分析方法,其特征在于,步骤2)所述分组聚类具体包括:
e)将reads序列按照标签序列和引物序列进行聚类;
f)截取每个reads序列中对应的标签序列和引物序列并进行标识,得到聚类后每个样本的reads序列。


根据权利要求1-2中任一项所述的分析方法,其特征在于,步骤3)所述HPV参考序列集包括HBB序列集和HPV型别序列集。


根据权利要求1-3中任一项所述的分析方法,其特征在于,步骤3)所述统计为将比对结果按照每个样本一行,每种型别一列进行统计,得到reads分布矩阵文件。


根据权利要求1-4中任一项所述的分析方法,其特征在于,步骤4)所述HPV分型包括以下步骤:
g)根据步骤3)的reads分布矩阵文件判断每个样本总体为阴性或阳性,若为阴性,则输出结果;若为阳性,进入步骤h);

h)逐个HPV型别判断阴性或阳性,即判断每个样本感染的HPV的型别。


根据权利要求5所述的分析方法,其特征在于,所述判断每个样本总体为阴性或阳性包括以下步骤:
a’)预设阈值C,通过训练集计算和分析,调整预设的阈值C;优选地,预设的阈值C的范围为0.4~0.6,更优选为0.5;优选地,所述通过训练集计算和分析具体包括:基于训练集样本,运用下面公式计算出参数和其中N0为阴性样本量,N1为阳性样本量:



b’)针对训练集样本观测数据,将训练参数和带入到分值计算公式中,得到训练集中每个样本总体的分值,所述分值计算公式为:


c’)将分值与预设的阈值C进行比较,若大于C,则判定为阳性,否则判定为阴性;
优选地,所述判断每个样本为阴性或阳性还具体包括:
d’)将训练参数和带入到分值计算公式中,得到测试集中每个样本总体的分值,将该分值与C进行比较,若大于C则判定为阳性,否则判定为阴性分值公式:



e’)对测试集中的阳性样本进行分型:依次对每个HPV型别考虑,若在训练集中曾对该HPV型别建立LDA模型,则将该模型应用于测试集中的阳性样本上;若在训练集中不曾对该HPV型别建立LDA模型,则将所有HPV型别上曾建立...

【专利技术属性】
技术研发人员:柴相花王书元刘强袁玉英张红云刘娜尹烨
申请(专利权)人:深圳华大基因股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1