【技术实现步骤摘要】
一种基于混合分类器来识别耳聋相关基因的方法
本专利技术属于数据分析领域,涉及一种基于BPNN-SVM混合分类器来识别耳聋相关基因的方法。
技术介绍
突发性聋,又称突发性感音神经性耳聋(Suddensensorineuralhearingloss--SSNHL),是一种以突然发生的、原因不明,在数秒到数天内迅速发展为特征的听力损伤综合征。它通常被定义为在72小时内发生至少三个连续频率的30分贝或以上的感音神经性耳聋,但其他的定义还包括在12或24小时内的听力损失,以强调突发性听力损失的概念。据统计,全球每年10万人中有5至20个人患有SSNHL,任何年龄阶段都有可能患这种疾病,但发病率最高的时期是40-60岁。听力损失可以涉及任何频率范围,也可以是全身性的,常伴有耳鸣、眩晕、恶心、呕吐等症状。近些年来,有研究学者认为突发性聋与遗传性耳聋相关基因的突变相关。Janecke,A.R.等通过研究奥地利突发性聋患者的GJB2突变的表型谱和频率,提出进行性听力损失和复发性突发性感音神经性听力损失与GJB2突变相关。Gross等发现MTRA2756G基因型与SSNHL之间存在显著的相关性。Furuta,T.等利用对照试验和统计分析工具发现白细胞介素-1基因(IL1A)多态性与SSNHL和梅尼埃氏病是紧密相关的。Koide,Y.等借助实验方法和多元素logistic回归,分析了UCP2基因多态性与SSNHL有明显的相关性。Cao等对近些年突发性聋的病因的研究进行一个系统的回顾,总结出大量研究支持基因多态性与SSNHL易感性相 ...
【技术保护点】
1.一种基于混合分类器来识别耳聋相关基因的方法,其特征在于:该方法包括以下步骤:/nS1:数据收集与融合;/nS2:样本的特征提取与预处理;/nS3:将S2中预处理后的带有标签的样本分别对反向传播神经网络分类器、支持向量机分类器、决策树分类器和随机森林分类器进行训练;/nS4:选择BPNN分类器和SVM分类器;/nS5:将未标记的样本在S4中训练好的分类器进行预测,得到预测结果为R
【技术特征摘要】
1.一种基于混合分类器来识别耳聋相关基因的方法,其特征在于:该方法包括以下步骤:
S1:数据收集与融合;
S2:样本的特征提取与预处理;
S3:将S2中预处理后的带有标签的样本分别对反向传播神经网络分类器、支持向量机分类器、决策树分类器和随机森林分类器进行训练;
S4:选择BPNN分类器和SVM分类器;
S5:将未标记的样本在S4中训练好的分类器进行预测,得到预测结果为RBPNN、RSVM;
S6:判断两个分类器的预测结果,每个分类器实验A次,两个分类器的预测耳聋相关基因的次数分别为ABPNN、ASVM,设置一个候选耳聋相关基因的阈值T1,若ABPNN≥T1且ASVM≥T1,则为候选耳聋相关基因,将两个分类器预测为候选耳聋相关基因的次数加起来计为S,根据多次实验设置一个阈值T,当S≥T时,则这个基因即为可疑耳聋相关基因,最后对S的大小进行排序,选出排序最前k个基因作为高可疑耳聋相关基因。
2.根据权利要求1所述的一种基于混合分类器来识别耳聋相关基因的方法,其特征在于:所述S1具体为:
数据收集:用于模型训练、验证的耳聋相关基因数据来源于两个数据库,即耳聋变异数据库DVDv8.2和NCBI数据库;从DVD数据库中提取149个耳聋相关的基因,从NCBI上下载基因所对应的基因编码序列和蛋白质序列;
数据融合:
正集:将耳聋相关基因名称与基因编码序列、蛋白质序列进行匹配,删除重复的序列,构成正集数据,共463个基因编码序列和463个蛋白质序列;
负集:从人类基因中去除掉耳聋相关基因对应的序列,接着随机取出1490个基因所对应的基因编码序列和蛋白质序列,共有3783个编码DNA序列和3783个蛋白质序列;每次实验从中随机选取与正集相同数量的样本构成负集,使得正集:负集=1:1;该1490个基因与耳聋基因无关;
待测数据集:为验证模型的准确性和有效性,从Webofscience和EI数据库中的文献中搜集到的跟耳聋相关的基因62个,共172个基因编码序列和蛋白质序列,获取他们序列的特征,并将所得到的特征集作为待预测特征集,用训练好的模型对他们进行分类,看分类效果;
将数据集按训练集:验证集:测试集=6:2:2的比例分开,正负比例1:1的训练集用来训练模型;
数据集为正集P时,基因数为149,基因编码序列数为463,蛋白质序列数为463,样本数为463;
数据集为负集N时,基因数为143,基因编码序列数为463,蛋白质序列数为463,样本数为463;
数据集为待预测数据集时,基因数为62,基因编码序列数为172,蛋白质序列数为172,样本数为172。
3.根据权利要求1所述的一种基于混合分类器来识别耳聋相关基因的方法,其特征在于:所述S2具体为:
选择的特征集共有54个特征,具体包括:
2个固有特征:基因编码片段长度、氨基酸长度;
13个密码子偏性特征:第3位置出现T、C、A、G相对其同义密码子频率、密码子适应指数、密码子偏性...
【专利技术属性】
技术研发人员:刘晓,任美香,何婷,罗雅川,徐玉桥,左汶奇,钟时勋,
申请(专利权)人:重庆大学,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。