【技术实现步骤摘要】
基于SVM-AdaBoost的成熟miRNA全位点识别方法
本专利技术涉及生物信息学领域,具体涉及一种miRNA全位点识别方法。
技术介绍
MiRNA是一类长度大约为20-24nt的高度保守的内源性小分子RNA,在转录后水平上调控基因表达。miRNA通过与mRNA靶向结合,抑制蛋白质的合成,实现对基因的表达控制。据估计,miRNA调控了人类60%的转录过程。MiRNA通过序列特异性的RNA基因沉默作用调节参与了多种生物过程。现有研究已发现miRNA参与了细胞增值发育,组织分化,细胞循环和细胞凋亡等。比如miRNA与植物胚芽和叶的发育、人和鼠的细胞发育、神经细胞的生长发育和神经干细胞向神经细胞的转化等密切相关;miRNA与一些疾病有密切关系,如精神分裂症、帕金森综合征和其他神经异常症状、白血病、糖尿病、艾滋病、心肌肥大和老年痴呆等常见疾病,更重要的是随着进一步研究发现,超过50%的人类miRNA被定位于与癌症相关的基因片断区域,其中包括乳腺癌、肺癌、直肠癌、皮肤癌、鼻咽癌、卵巢癌以及神经细胞癌等,最近研究也说明miRNA在药物作用后体内分子水平起到重要调节作用。综上 ...
【技术保护点】
1.一种基于SVM‑AdaBoost的成熟miRNA全位点识别方法,所述的识别方法通过以下步骤实现:步骤一、选取miRBase数据库中pre‑miRNA序列,并在选取的序列上建立训练数据集和测试集;步骤二、提取基于结构化序列的成熟miRNA剪切位点生物特征:步骤二一、基于生物特征分析,定义成熟miRNA剪切位点生物特征;步骤二二、定义成熟miRNA双链,以及成熟miRNA双链对应的位点;步骤二三、在定义的成熟miRNA双链上构建序列,用于提取特征;步骤二四、预测构建的序列的二级结构及自由能;步骤二五、在构建的序列上提取特征集;步骤三、通过信息增益特征选择算法获得新的特征集; ...
【技术特征摘要】
1.一种基于SVM-AdaBoost的成熟miRNA全位点识别方法,所述的识别方法通过以下步骤实现:步骤一、选取miRBase数据库中pre-miRNA序列,并在选取的序列上建立训练数据集和测试集;步骤二、提取基于结构化序列的成熟miRNA剪切位点生物特征:步骤二一、基于生物特征分析,定义成熟miRNA剪切位点生物特征;步骤二二、定义成熟miRNA双链,以及成熟miRNA双链对应的位点;步骤二三、在定义的成熟miRNA双链上构建序列,用于提取特征;步骤二四、预测构建的序列的二级结构及自由能;步骤二五、在构建的序列上提取特征集;步骤三、通过信息增益特征选择算法获得新的特征集;步骤四、构建基于概率的可调参数SVM分类器模型;步骤五、构建基于AdaBoost算法的集成分类器模型;步骤六、训练miRNA剪切全位点分类器。2.根据权利要求1所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤一所述的选取miRBase数据库中pre-miRNA序列,并在选取的序列上建立训练数据集和测试集的过程为,选取miRBase数据库中pre-miRNA序列,去除冗余序列和多分枝序列后,在剩余序列中分别建立针对3’端的训练集和测试集以及5’端的训练集和测试集;其中,pre-miRNA的含义为前体miRNA。3.根据权利要求1或2所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤二一所述的基于生物特征分析,定义成熟miRNA剪切位点生物特征的过程为,基于生物特征分析,根据与位置缺省相关的自由能变化和内环,定义针对这些位置缺省的基于结构化序列成熟miRNA剪切位点生物特征,包括:5个热力学特征:-9nt到Dicer位点的自由能,表示为MFE1;-5nt到Dicer位点的自由能,表示为MFE2;-3nt到Dicer位点的自由能,表示为MFE3;Drosha位点到Dicer位点的自由能,表示为MFE4;Drosha位点到Dicer下游3nt位点的自由能,表示为MFE5;其中,nt表示核苷酸,是RNA的基本单位;-表示以成熟miRNA第一个核苷酸作为坐标刻度0,刻度0左侧核苷酸位置为-,刻度0右侧核苷酸位置为+;Drosha和Dicer分别表示Drosha酶和Dicer酶;位置特异性特征:从Drosha的起始位点左侧9nt到Dicer右侧3nt双链的每一位置核苷酸与结构组成的特征,将配对的双链核苷酸定义为M,将不配对的双链核苷酸定义为N,具体特征为:AM、CM、GM、UM、AN、CN、GN、UN、-N;其中,A表示腺嘌呤adenine,C表示胞嘧啶cytosine,G表示鸟嘌呤ganciclovir,U表示尿嘧啶uracil;-表示位置缺省;核苷酸配对特征:从Drosha起始位点到Dicer位点的每一位置核苷酸对,具体特征为:AA、AC、AG、AU、CA、CC、CG、CU、GA、GC、GG、GU、UA、UC、UG、UU、A-、C-、G-、U-、-A、–C、–G、–U;位置缺省数量:+3nt到+8nt序列中-位置缺省的数量;+9nt到+12nt序列中-位置缺省的数量;-2nt-2nt序列中-位置缺省的数量;长度特征:miRNA起始位点到终环距离;核苷酸特征:miRNA第一个核苷酸类别;miRNA序列单核苷酸频率;miRNA第一个核苷酸配对。4.根据权利要求3所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤二二所述的定义成熟miRNA双链,以及成熟miRNA双链对应的位点的过程为,定义从5’端成熟miRNA起始位点开始的22nt核苷酸的窗口为成熟miRNA双链,对应的4个位点分别定义为:P5_5、P5_3、P3_5和P3_3;其中,所述的22nt核苷酸中不包括具有缺省位置信息的核苷酸。5.根据权利要求1、2或4所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤二三所述的在定义的成熟miRNA双链上构建序列,用于提取特征的过程为,将P5_5左侧9nt核苷酸序列合并成熟miRNA序列定义为-9扩展序列,同理,将P5_5左侧5nt、3nt和右侧3nt核苷酸序列合并成熟miRNA序列分别定义为-5扩展序列、-3扩展序列和+3扩展序列,将P5_5左侧4nt和右侧4nt合并成熟miRNA序列分别定义为-4扩展序列和+4扩展序列。6....
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。