一种HPV精确分型的生物信息学分析方法及系统技术方案

技术编号：23864317 阅读：181 留言：0更新日期：2020-04-18 15:48

本发明专利技术公开了一种HPV精确分型的生物信息学分型方法及系统，所述方法包括：接收高通量测序技术得到的测序片段，得到每个样本的reads序列；将所有样本的reads序列进行分组聚类，将聚类后的reads序列与HPV参考序列集进行比对和筛选，确定筛选后的reads序列的匹配结果；对确定HPV型别的reads序列采用LDA模型进行HPV分型，最终确认每个reads序列的HPV型别。

A bioinformatics analysis method and system for accurate typing of HPV

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】一种HPV精确分型的生物信息学分析方法及系统
本专利技术属于生物信息学领域，涉及一种HPV精确分型的生物信息学分析方法及系统。
技术介绍
人乳头瘤病毒(HPV)是一种嗜上皮性病毒，属于乳多空病毒科的乳头瘤空泡病毒A属，是球形DNA病毒，能引起人体皮肤黏膜的鳞状上皮增殖。至今，被分离出的HPV已经有170多种，根据侵犯的组织部位和致病强弱不同可分为四类：(1)皮肤低危型(如HPV2、3、7、10等)可以引起皮肤疣；(2)皮肤高危型(如HPV5、20、38等)可以引起良性皮肤疣，光化性角化病，非黑瘤皮肤癌等；(3)黏膜低危型(如HPV6、11、13、32等)可以引起良性生殖器湿疣；(4)黏膜高危型(如HPV16、18、31、33等)可以引发恶性肿瘤，诱发的癌症数量占人类所有癌症数量的5％，相当于病毒诱发的所有癌症数量的1/3。其中，HPV16恶性程度最高，在世界范围内，约50％的宫颈癌是由HPV16引起的。宫颈癌是最常见的妇科肿瘤，也是威胁女性生命安全的第二大恶性肿瘤。2012年，约有528,000例宫颈癌病例，死亡人数达266,000人。约70％的宫颈癌发生在发展中国家。据统计，约70％的宫颈癌是由HPV16和HPV18感染所致。因此精准高效的进行HPV型别鉴定是有效预防宫颈癌的重要手段，也是降低女性死亡率的一个重要举措。目前，用于HPV基因分型的检测方法主要是分子生物学方法，大致包括三种：(1)核酸杂交检测法，包括Southern印迹，原位杂交和斑点印记杂交等，其中Southern印迹法是HPV基因分型的金标准，同时...

【技术保护点】
一种HPV精确分型的生物信息学分析方法，其特征在于，所述分析方法包括以下步骤：/n1)接收高通量测序技术得到的测序片段，得到reads序列；/n2)将reads序列进行分组聚类，得到每个样本的reads序列；/n3)将每个样本的reads序列与HPV参考序列集进行比对和筛选，确定筛选后的reads序列的匹配结果，并进行统计；/n4)对确定HPV型别的reads序列采用LDA模型进行HPV分型，最终确认每个reads序列的HPV型别。/n

【技术特征摘要】
【国外来华专利技术】一种HPV精确分型的生物信息学分析方法，其特征在于，所述分析方法包括以下步骤：
1)接收高通量测序技术得到的测序片段，得到reads序列；
2)将reads序列进行分组聚类，得到每个样本的reads序列；
3)将每个样本的reads序列与HPV参考序列集进行比对和筛选，确定筛选后的reads序列的匹配结果，并进行统计；
4)对确定HPV型别的reads序列采用LDA模型进行HPV分型，最终确认每个reads序列的HPV型别。

根据权利要求1所述的分析方法，其特征在于，步骤2)所述分组聚类具体包括：
e)将reads序列按照标签序列和引物序列进行聚类；
f)截取每个reads序列中对应的标签序列和引物序列并进行标识，得到聚类后每个样本的reads序列。

根据权利要求1-2中任一项所述的分析方法，其特征在于，步骤3)所述HPV参考序列集包括HBB序列集和HPV型别序列集。

根据权利要求1-3中任一项所述的分析方法，其特征在于，步骤3)所述统计为将比对结果按照每个样本一行，每种型别一列进行统计，得到reads分布矩阵文件。

根据权利要求1-4中任一项所述的分析方法，其特征在于，步骤4)所述HPV分型包括以下步骤：
g)根据步骤3)的reads分布矩阵文件判断每个样本总体为阴性或阳性，若为阴性，则输出结果；若为阳性，进入步骤h)；

h)逐个HPV型别判断阴性或阳性，即判断每个样本感染的HPV的型别。

根据权利要求5所述的分析方法，其特征在于，所述判断每个样本总体为阴性或阳性包括以下步骤：
a’)预设阈值C，通过训练集计算和分析，调整预设的阈值C；优选地，预设的阈值C的范围为0.4～0.6，更优选为0.5；优选地，所述通过训练集计算和分析具体包括：基于训练集样本，运用下面公式计算出参数和其中N0为阴性样本量，N1为阳性样本量：

b’)针对训练集样本观测数据，将训练参数和带入到分值计算公式中，得到训练集中每个样本总体的分值，所述分值计算公式为：

和
c’)将分值与预设的阈值C进行比较，若大于C，则判定为阳性，否则判定为阴性；
优选地，所述判断每个样本为阴性或阳性还具体包括：
d’)将训练参数和带入到分值计算公式中，得到测试集中每个样本总体的分值，将该分值与C进行比较，若大于C则判定为阳性，否则判定为阴性分值公式：

e’)对测试集中的阳性样本进行分型：依次对每个HPV型别考虑，若在训练集中曾对该HPV型别建立LDA模型，则将该模型应用于测试集中的阳性样本上；若在训练集中不曾对该HPV型别建立LDA模型，则将所有HPV型别上曾建立...

【专利技术属性】
技术研发人员：柴相花，王书元，刘强，袁玉英，张红云，刘娜，尹烨，
申请(专利权)人：深圳华大基因股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人