【技术实现步骤摘要】
【国外来华专利技术】一种HPV精确分型的生物信息学分析方法及系统
本专利技术属于生物信息学领域,涉及一种HPV精确分型的生物信息学分析方法及系统。
技术介绍
人乳头瘤病毒(HPV)是一种嗜上皮性病毒,属于乳多空病毒科的乳头瘤空泡病毒A属,是球形DNA病毒,能引起人体皮肤黏膜的鳞状上皮增殖。至今,被分离出的HPV已经有170多种,根据侵犯的组织部位和致病强弱不同可分为四类:(1)皮肤低危型(如HPV2、3、7、10等)可以引起皮肤疣;(2)皮肤高危型(如HPV5、20、38等)可以引起良性皮肤疣,光化性角化病,非黑瘤皮肤癌等;(3)黏膜低危型(如HPV6、11、13、32等)可以引起良性生殖器湿疣;(4)黏膜高危型(如HPV16、18、31、33等)可以引发恶性肿瘤,诱发的癌症数量占人类所有癌症数量的5%,相当于病毒诱发的所有癌症数量的1/3。其中,HPV16恶性程度最高,在世界范围内,约50%的宫颈癌是由HPV16引起的。宫颈癌是最常见的妇科肿瘤,也是威胁女性生命安全的第二大恶性肿瘤。2012年,约有528,000例宫颈癌病例,死亡人数达266,000人。约70%的宫颈癌发生在发展中国家。据统计,约70%的宫颈癌是由HPV16和HPV18感染所致。因此精准高效的进行HPV型别鉴定是有效预防宫颈癌的重要手段,也是降低女性死亡率的一个重要举措。目前,用于HPV基因分型的检测方法主要是分子生物学方法,大致包括三种:(1)核酸杂交检测法,包括Southern印迹,原位杂交和斑点印记杂交等,其中Southern印迹法是HPV基因分型的金标准,同时 ...
【技术保护点】
一种HPV精确分型的生物信息学分析方法,其特征在于,所述分析方法包括以下步骤:/n1)接收高通量测序技术得到的测序片段,得到reads序列;/n2)将reads序列进行分组聚类,得到每个样本的reads序列;/n3)将每个样本的reads序列与HPV参考序列集进行比对和筛选,确定筛选后的reads序列的匹配结果,并进行统计;/n4)对确定HPV型别的reads序列采用LDA模型进行HPV分型,最终确认每个reads序列的HPV型别。/n
【技术特征摘要】
【国外来华专利技术】一种HPV精确分型的生物信息学分析方法,其特征在于,所述分析方法包括以下步骤:
1)接收高通量测序技术得到的测序片段,得到reads序列;
2)将reads序列进行分组聚类,得到每个样本的reads序列;
3)将每个样本的reads序列与HPV参考序列集进行比对和筛选,确定筛选后的reads序列的匹配结果,并进行统计;
4)对确定HPV型别的reads序列采用LDA模型进行HPV分型,最终确认每个reads序列的HPV型别。
根据权利要求1所述的分析方法,其特征在于,步骤2)所述分组聚类具体包括:
e)将reads序列按照标签序列和引物序列进行聚类;
f)截取每个reads序列中对应的标签序列和引物序列并进行标识,得到聚类后每个样本的reads序列。
根据权利要求1-2中任一项所述的分析方法,其特征在于,步骤3)所述HPV参考序列集包括HBB序列集和HPV型别序列集。
根据权利要求1-3中任一项所述的分析方法,其特征在于,步骤3)所述统计为将比对结果按照每个样本一行,每种型别一列进行统计,得到reads分布矩阵文件。
根据权利要求1-4中任一项所述的分析方法,其特征在于,步骤4)所述HPV分型包括以下步骤:
g)根据步骤3)的reads分布矩阵文件判断每个样本总体为阴性或阳性,若为阴性,则输出结果;若为阳性,进入步骤h);
h)逐个HPV型别判断阴性或阳性,即判断每个样本感染的HPV的型别。
根据权利要求5所述的分析方法,其特征在于,所述判断每个样本总体为阴性或阳性包括以下步骤:
a’)预设阈值C,通过训练集计算和分析,调整预设的阈值C;优选地,预设的阈值C的范围为0.4~0.6,更优选为0.5;优选地,所述通过训练集计算和分析具体包括:基于训练集样本,运用下面公式计算出参数和其中N0为阴性样本量,N1为阳性样本量:
b’)针对训练集样本观测数据,将训练参数和带入到分值计算公式中,得到训练集中每个样本总体的分值,所述分值计算公式为:
和
c’)将分值与预设的阈值C进行比较,若大于C,则判定为阳性,否则判定为阴性;
优选地,所述判断每个样本为阴性或阳性还具体包括:
d’)将训练参数和带入到分值计算公式中,得到测试集中每个样本总体的分值,将该分值与C进行比较,若大于C则判定为阳性,否则判定为阴性分值公式:
e’)对测试集中的阳性样本进行分型:依次对每个HPV型别考虑,若在训练集中曾对该HPV型别建立LDA模型,则将该模型应用于测试集中的阳性样本上;若在训练集中不曾对该HPV型别建立LDA模型,则将所有HPV型别上曾建立...
【专利技术属性】
技术研发人员:柴相花,王书元,刘强,袁玉英,张红云,刘娜,尹烨,
申请(专利权)人:深圳华大基因股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。