当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于选择集成技术的致病同义突变预测方法技术

技术编号:32479509 阅读:27 留言:0更新日期:2022-03-02 09:43
本发明专利技术公开了一种基于选择集成技术的致病同义突变预测方法,包括以下步骤:(1)数据获取;(2)数据预处理:对获取的数据集利用集成的K近邻缺失值填充算法进行缺失值填充;(3)模型构建:使用随机欠采样方法对不平衡数据进行处理,得到多套平衡训练集,利用该训练集训练多个基模型,构建模型池,再基于多样性对模型池中的模型进行选择集成;(4)模型训练:将不平衡基准训练集划分为构建模型的训练集和进行模型评估和参数优化的验证集,最后通过集成最优参数下的五折交叉验证模型得到最终模型;(5)模型预测。本发明专利技术通过采用随机欠采样技术和选择集成技术对同义突变领域的不平衡数据进行建模,具有较好的识别能力和覆盖能力。具有较好的识别能力和覆盖能力。具有较好的识别能力和覆盖能力。

【技术实现步骤摘要】
一种基于选择集成技术的致病同义突变预测方法


[0001]本专利技术涉及机器学习与生物信息计算领域,具体涉及一种基于选择集成技术的致病同义突变预测方法。

技术介绍

[0002]由于同义突变不改变所编码的氨基酸序列,因此这类突变一直被认为是无害的。但随着精准医疗研究的深入,许多研究者发现同义突变与多种人类疾病相关,如Supek等人证明同义突变可以通过干扰RNA剪切或改变转录影响蛋白质功能,进而导致癌症相关疾病。为此,对同义突变的研究已成为研究者越来越感兴趣的课题。
[0003]然而,通过生物实验来研究致病同义突变耗时耗力,相比之下基于计算的方法效率高而且耗费低,同时也可以为进一步的实验验证提供基础。针对这点,研究者们提出了各种先进的有害同义突变预测工具,这些工具根据适用范围分为两类:广谱性工具和特异性工具,其中广谱性工具可以预测多种类型点突变,包括同义突变,但在同义突变上的效果仍有不足,性能不及特异性工具,而对特异性工具来说,由于同义突变领域可利用的正样本数量稀少,正负样本比例悬殊,特异性预测工具的性能也会受一定影响。<br/>[0004]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于选择集成技术的致病同义突变预测方法,其特征在于,包括以下步骤:(1)数据获取:从已发表的文献中获取不平衡的基准训练集和两套独立测试集;(2)数据预处理:对获取的数据集利用集成的K近邻缺失值填充算法对数据进行缺失值填充;(3)模型构建:使用随机欠采样的方法对不平衡数据进行处理,得到多套平衡训练集,利用该训练集训练多个基模型,构建模型池,再利用选择集成技术对模型池中的模型进行选择集成,具体过程如下:S31.输入数据记为D,其中正样本记为P,负样本记为N,其中|P|<|N|;S32.对负样本N进行k次欠采样得到N的k个子集{N1,N2,

,N
k
},其中|N
i
|=|P|且i∈{1,2,

,k};S33.由{N1,N2,

,N
k
}和P得到{D1,D2,

,D
k
},其中D
i
=N
i
∪P;S34.分别利用D1,D2,

,D
k
训练基分类器C1,C2,

,C
k
;S35.基分类器C
i
与基分类器C
j
之间的双失败度量S
i,j
可以由下式计算得到:S
i,j
=N
00
其中N
00
表示给定数据集上C
i
和C
j
都预测错误的样本数,然后通过下式估计基模型C
i
的多样性度量d
i
:S36.利用S5计算模型池中基模型C
i
的多样度量d
i
,依据d
i
对模型池进行排序,选择前n个基分类器记为{h1…
,h
n
},其中对新数据集x,集成系统H的预测结果为:(4...

【专利技术属性】
技术研发人员:夏俊峰张涛郑春厚
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1