【技术实现步骤摘要】
一种基于选择集成技术的致病同义突变预测方法
[0001]本专利技术涉及机器学习与生物信息计算领域,具体涉及一种基于选择集成技术的致病同义突变预测方法。
技术介绍
[0002]由于同义突变不改变所编码的氨基酸序列,因此这类突变一直被认为是无害的。但随着精准医疗研究的深入,许多研究者发现同义突变与多种人类疾病相关,如Supek等人证明同义突变可以通过干扰RNA剪切或改变转录影响蛋白质功能,进而导致癌症相关疾病。为此,对同义突变的研究已成为研究者越来越感兴趣的课题。
[0003]然而,通过生物实验来研究致病同义突变耗时耗力,相比之下基于计算的方法效率高而且耗费低,同时也可以为进一步的实验验证提供基础。针对这点,研究者们提出了各种先进的有害同义突变预测工具,这些工具根据适用范围分为两类:广谱性工具和特异性工具,其中广谱性工具可以预测多种类型点突变,包括同义突变,但在同义突变上的效果仍有不足,性能不及特异性工具,而对特异性工具来说,由于同义突变领域可利用的正样本数量稀少,正负样本比例悬殊,特异性预测工具的性能也会受一定影响。< ...
【技术保护点】
【技术特征摘要】
1.一种基于选择集成技术的致病同义突变预测方法,其特征在于,包括以下步骤:(1)数据获取:从已发表的文献中获取不平衡的基准训练集和两套独立测试集;(2)数据预处理:对获取的数据集利用集成的K近邻缺失值填充算法对数据进行缺失值填充;(3)模型构建:使用随机欠采样的方法对不平衡数据进行处理,得到多套平衡训练集,利用该训练集训练多个基模型,构建模型池,再利用选择集成技术对模型池中的模型进行选择集成,具体过程如下:S31.输入数据记为D,其中正样本记为P,负样本记为N,其中|P|<|N|;S32.对负样本N进行k次欠采样得到N的k个子集{N1,N2,
…
,N
k
},其中|N
i
|=|P|且i∈{1,2,
…
,k};S33.由{N1,N2,
…
,N
k
}和P得到{D1,D2,
…
,D
k
},其中D
i
=N
i
∪P;S34.分别利用D1,D2,
…
,D
k
训练基分类器C1,C2,
…
,C
k
;S35.基分类器C
i
与基分类器C
j
之间的双失败度量S
i,j
可以由下式计算得到:S
i,j
=N
00
其中N
00
表示给定数据集上C
i
和C
j
都预测错误的样本数,然后通过下式估计基模型C
i
的多样性度量d
i
:S36.利用S5计算模型池中基模型C
i
的多样度量d
i
,依据d
i
对模型池进行排序,选择前n个基分类器记为{h1…
,h
n
},其中对新数据集x,集成系统H的预测结果为:(4...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。