当前位置: 首页 > 专利查询>重庆大学专利>正文

一种基于混合分类器来识别耳聋相关基因的方法技术

技术编号:27940201 阅读:37 留言:0更新日期:2021-04-02 14:21
本发明专利技术涉及一种基于反向传播神经网络‑支持向量机BPNN‑SVM混合分类器来识别耳聋相关基因的方法,属于数据分析领域。采用反向传播神经网络分类器和支持向量机分类器形成混合分类器,达到使用计算方法结合序列特征对耳聋相关基因进行鉴定的目的。使用少量训练样本对混合分类器进行训练,并通过不断迭代循环,寻找分类效果最好的分类器进行分类,该方法将反向传播神经网络和支持向量机算法结合在一起。为检验该模型的有效性,用训练好的BPNN‑SVM集成模型分别对文献数据库中收集到的62个确定的耳聋相关基因进行分类。本发明专利技术中提出的分类模型具有从大量未知基因中筛选出高可疑耳聋相关基因方面的潜在能力。

【技术实现步骤摘要】
一种基于混合分类器来识别耳聋相关基因的方法
本专利技术属于数据分析领域,涉及一种基于BPNN-SVM混合分类器来识别耳聋相关基因的方法。
技术介绍
突发性聋,又称突发性感音神经性耳聋(Suddensensorineuralhearingloss--SSNHL),是一种以突然发生的、原因不明,在数秒到数天内迅速发展为特征的听力损伤综合征。它通常被定义为在72小时内发生至少三个连续频率的30分贝或以上的感音神经性耳聋,但其他的定义还包括在12或24小时内的听力损失,以强调突发性听力损失的概念。据统计,全球每年10万人中有5至20个人患有SSNHL,任何年龄阶段都有可能患这种疾病,但发病率最高的时期是40-60岁。听力损失可以涉及任何频率范围,也可以是全身性的,常伴有耳鸣、眩晕、恶心、呕吐等症状。近些年来,有研究学者认为突发性聋与遗传性耳聋相关基因的突变相关。Janecke,A.R.等通过研究奥地利突发性聋患者的GJB2突变的表型谱和频率,提出进行性听力损失和复发性突发性感音神经性听力损失与GJB2突变相关。Gross等发现MTRA2756G基因型与SSNHL之间存在显著的相关性。Furuta,T.等利用对照试验和统计分析工具发现白细胞介素-1基因(IL1A)多态性与SSNHL和梅尼埃氏病是紧密相关的。Koide,Y.等借助实验方法和多元素logistic回归,分析了UCP2基因多态性与SSNHL有明显的相关性。Cao等对近些年突发性聋的病因的研究进行一个系统的回顾,总结出大量研究支持基因多态性与SSNHL易感性相关。目前,已经有许多学者对突发性聋的病因和预后进行了研究。多数研究以突发性聋患者为实验组,以正常人为对照组。采用临床实验提取患者DNA,利用PCR扩增技术,并对其产物进行DNA测序(Sanger测序、二代测序、三代基因组测序),借助SPSS软件进行统计分析基因突变位点与突发性聋之间的相关性。这种以试验为主的方法虽然准确率较高,但昂贵又耗时,如对全基因组进行测序需要做大量的实验,耗费大量的人力物力,并不适宜普遍用于突发性聋患者的检测。在疾病基因检测中,研究者们已经使用分类算法来预测和识别疾病基因,这些方法通常都是以疾病相似性网络、基因和表型相似性网络或者基因表达数据等为特征来训练分类器,利用基于机器学习的分类算法来预测和识别疾病基因。然而,在耳聋相关基因的识别和预测方面,还没有采用计算方法。此外,一些基于实验的特征难以得到。
技术实现思路
针对上述现有技术的不足,本专利技术申请所要解决的技术问题是:如何提供一种特征易于获取、分类效果好的分类器来识别耳聋相关基因的方法。为达到上述目的,本专利技术提供如下技术方案:一种基于混合分类器来识别耳聋相关基因的方法,该方法包括以下步骤:S1:数据收集与融合;S2:样本的特征提取与预处理;S3:将S2中预处理后的带有标签的样本分别对反向传播神经网络分类器、支持向量机分类器、决策树分类器和随机森林分类器进行训练;S4:选择BPNN分类器和SVM分类器;S5:将未标记的样本在S4中训练好的分类器进行预测,得到预测结果为RBPNN、RSVM;S6:判断两个分类器的预测结果,每个分类器实验A次,两个分类器的预测耳聋相关基因的次数分别为ABPNN、ASVM,设置一个候选耳聋相关基因的阈值T1,若ABPNN≥T1且ASVM≥T1,则为候选耳聋相关基因,将两个分类器预测为候选耳聋相关基因的次数加起来计为S,根据多次实验设置一个阈值T,当S≥T时,则这个基因即为可疑耳聋相关基因,最后对S的大小进行排序,选出排序最前k个基因作为高可疑耳聋相关基因。可选的,所述S1具体为:数据收集:用于模型训练、验证的耳聋相关基因数据来源于两个数据库,即耳聋变异数据库DVDv8.2和NCBI数据库;从DVD数据库中提取149个耳聋相关的基因,从NCBI上下载基因所对应的基因编码序列和蛋白质序列;数据融合:正集:将耳聋相关基因名称与基因编码序列、蛋白质序列进行匹配,删除重复的序列,构成正集数据,共463个基因编码序列和463个蛋白质序列;负集:从人类基因中去除掉耳聋相关基因对应的序列,接着随机取出1490个基因所对应的基因编码序列和蛋白质序列,共有3783个编码DNA序列和3783个蛋白质序列;每次实验从中随机选取与正集相同数量的样本构成负集,使得正集∶负集=1∶1;该1490个基因与耳聋基因无关;待测数据集:为验证模型的准确性和有效性,从Webofscience和EI数据库中的文献中搜集到的跟耳聋相关的基因62个,共172个基因编码序列和蛋白质序列,获取他们序列的特征,并将所得到的特征集作为待预测特征集,用训练好的模型对他们进行分类,看分类效果;将数据集按训练集:验证集:测试集=6:2:2的比例分开,正负比例1:1的训练集用来训练模型;数据集为正集P时,基因数为149,基因编码序列数为463,蛋白质序列数为463,样本数为463;数据集为负集N时,基因数为143,基因编码序列数为463,蛋白质序列数为463,样本数为463;数据集为待预测数据集时,基因数为62,基因编码序列数为172,蛋白质序列数为172,样本数为172。可选的,所述S2具体为:选择的特征集共有54个特征,具体包括:2个固有特征:基因编码片段长度、氨基酸长度;13个密码子偏性特征:第3位置出现T、C、A、G相对其同义密码子频率、密码子适应指数、密码子偏性指数、最佳密码子频率、有效密码子数、密码子第3个碱基出现G和C的频率、GC含量、同义密码子频率、亲水性、编码芳香性氨基酸的频率;22个氨基酸使用频率特征:20种氨基酸含量、稀有氨基酸的频率、结束密码子第3位突变产生密码子数;12个氨基酸理化性质特征:分子重量、等电位点、微小重量氨基酸的摩尔数、小重量氨基酸的摩尔数、脂肪族氨基酸的摩尔数、芳香氨基酸的摩尔数、非极性氨基酸的摩尔数、极性氨基酸的摩尔数、带电氨基酸的摩尔数、基础氨基酸的摩尔数、酸性氨基酸的摩尔数、平均剩余重量;3个跨膜螺旋特征:跨膜螺旋氨基酸预期数,前60个氨基酸中跨膜螺旋氨基酸预期数,采用N-best方式预测的跨膜螺旋;1个Hurst指数;1个信息理论特征:香农熵;这些特征利用生物信息学工具和编程计算得出;特征数据预处理为:待分析的序列特征数据集中,利用缺失值处理办法均值插补补全缺失值;每类特征具有不同的量纲和数量级,采用Min-max标准化处理方法对原始指标数据进行标准化处理。可选的,所述S3、S4、S5具体为:将数据集按训练集∶验证集∶测试集=6∶2∶2的比例分开,正负比例1∶1的训练集用来训练模型,验证集用来调节模型的参数,测试集在模型训练前单独提取出来,使用准确性Accuracy、召回率Recall、精确度Precision、F-measure和G-mean来评估模型的预测分类能本文档来自技高网
...

【技术保护点】
1.一种基于混合分类器来识别耳聋相关基因的方法,其特征在于:该方法包括以下步骤:/nS1:数据收集与融合;/nS2:样本的特征提取与预处理;/nS3:将S2中预处理后的带有标签的样本分别对反向传播神经网络分类器、支持向量机分类器、决策树分类器和随机森林分类器进行训练;/nS4:选择BPNN分类器和SVM分类器;/nS5:将未标记的样本在S4中训练好的分类器进行预测,得到预测结果为R

【技术特征摘要】
1.一种基于混合分类器来识别耳聋相关基因的方法,其特征在于:该方法包括以下步骤:
S1:数据收集与融合;
S2:样本的特征提取与预处理;
S3:将S2中预处理后的带有标签的样本分别对反向传播神经网络分类器、支持向量机分类器、决策树分类器和随机森林分类器进行训练;
S4:选择BPNN分类器和SVM分类器;
S5:将未标记的样本在S4中训练好的分类器进行预测,得到预测结果为RBPNN、RSVM;
S6:判断两个分类器的预测结果,每个分类器实验A次,两个分类器的预测耳聋相关基因的次数分别为ABPNN、ASVM,设置一个候选耳聋相关基因的阈值T1,若ABPNN≥T1且ASVM≥T1,则为候选耳聋相关基因,将两个分类器预测为候选耳聋相关基因的次数加起来计为S,根据多次实验设置一个阈值T,当S≥T时,则这个基因即为可疑耳聋相关基因,最后对S的大小进行排序,选出排序最前k个基因作为高可疑耳聋相关基因。


2.根据权利要求1所述的一种基于混合分类器来识别耳聋相关基因的方法,其特征在于:所述S1具体为:
数据收集:用于模型训练、验证的耳聋相关基因数据来源于两个数据库,即耳聋变异数据库DVDv8.2和NCBI数据库;从DVD数据库中提取149个耳聋相关的基因,从NCBI上下载基因所对应的基因编码序列和蛋白质序列;
数据融合:
正集:将耳聋相关基因名称与基因编码序列、蛋白质序列进行匹配,删除重复的序列,构成正集数据,共463个基因编码序列和463个蛋白质序列;
负集:从人类基因中去除掉耳聋相关基因对应的序列,接着随机取出1490个基因所对应的基因编码序列和蛋白质序列,共有3783个编码DNA序列和3783个蛋白质序列;每次实验从中随机选取与正集相同数量的样本构成负集,使得正集:负集=1:1;该1490个基因与耳聋基因无关;
待测数据集:为验证模型的准确性和有效性,从Webofscience和EI数据库中的文献中搜集到的跟耳聋相关的基因62个,共172个基因编码序列和蛋白质序列,获取他们序列的特征,并将所得到的特征集作为待预测特征集,用训练好的模型对他们进行分类,看分类效果;
将数据集按训练集:验证集:测试集=6:2:2的比例分开,正负比例1:1的训练集用来训练模型;
数据集为正集P时,基因数为149,基因编码序列数为463,蛋白质序列数为463,样本数为463;
数据集为负集N时,基因数为143,基因编码序列数为463,蛋白质序列数为463,样本数为463;
数据集为待预测数据集时,基因数为62,基因编码序列数为172,蛋白质序列数为172,样本数为172。


3.根据权利要求1所述的一种基于混合分类器来识别耳聋相关基因的方法,其特征在于:所述S2具体为:
选择的特征集共有54个特征,具体包括:
2个固有特征:基因编码片段长度、氨基酸长度;
13个密码子偏性特征:第3位置出现T、C、A、G相对其同义密码子频率、密码子适应指数、密码子偏性...

【专利技术属性】
技术研发人员:刘晓任美香何婷罗雅川徐玉桥左汶奇钟时勋
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1