【技术实现步骤摘要】
一种基于NA
‑
MEMD和MGWT识别蛋白质编码区的基因预测方法
[0001]本专利技术涉及生物医学工程和计算机领域,具体涉及一种基于噪声辅助的多元经验模态分解(NA
‑
MEMD)和小波变换(MGWT)识别蛋白质编码区的基因检测方法。
技术介绍
[0002]计算生物学是一个快速发展的领域,DNA序列蛋白质编码区的分析是生物信息学中最基本的应用之一。在过去的二十年中,已经提出了许多用于鉴定蛋白质编码区的方法。这些方法可以分为两类:模型相关方法和模型独立方法。对于前者,其实现方式在很大程度上取决于某些特定的先验信息或训练数据集,这些信息或训练数据集来自已知器官基因组信息的数据库。为了获得区分编码区域和非编码区域的分类器,在这些模型相关方法中,通过机器学习技术或概率学习模型训练了大量已知的高质量数据。这样,与模型相关的方法通常会获得比模型无关的方法更精确的识别结果。然而,尽管多个数据库已经提供了有关测序生物基因的详细注释,但分析的基因组序列仍可能包含并非来自可用数据库的编码区。从这个意义上讲,过 ...
【技术保护点】
【技术特征摘要】
1.一种基于NA
‑
MEMD和MGWT识别蛋白质编码区的基因预测方法,其特征在于,包括如下步骤:步骤1,对DNA序列进行数值映射,将其转换为四个DNA结构序列组成的四通道数字信号;步骤2,对得到的四通道数字信号进行NA
‑
MEMD分解,得到多元本征模态函数信号,并利用分解结果重构四通道分析信号;步骤3,利用小波变换MGWT计算重构信号的局部频谱,将四通道分析信号的小波系数相加并将结果投影到位置轴上,最终得到DNA序列的3周期光谱,以识别DNA序列中的蛋白质编码区。2.根据权利要求1所述的基于NA
‑
MEMD和MGWT识别蛋白质编码区的基因预测方法,其特征在于,步骤1中,对DNA序列进行数值映射的过程如下:步骤1
‑
1,将DNA序列表示为四个字母A、C、G、T组成的符号字符串,利用DNA分子物理特性的高级结构信息将DNA序列中的每个二核苷酸用其相应的结构值代替;步骤1
‑
2,为了促进NA
‑
MEMD的分解性能,将每个结构轮廓中的特征值线性归一化到[0,1]的范围,将DNA序列转换为四通道数字信号,该信号用于进行频谱分析。3.根据权利要求2所述的基于NA
‑
MEMD和MGWT识别蛋白质编码区的基因预测方法,其特征在于,步骤1
‑
1中,所述结构值从实验验证的转化表获得。4.根据权利要求2所述的基于NA
‑
MEMD和MGWT识别蛋白质编码区的基因预测方法,其特征在于,步骤2
‑
2中,将DNA序列转换为四通道数字信号具体表示为:S(n)=[S
α
(n),S
β
(n),S
γ
(n),S
δ
(n)]|n=1,...,N式中,S(n)是每个通道长度为N的分析结构序列,α、α、γ、δ分别代表DNA的弯曲刚度、双链断裂能、双链自由能和螺旋桨扭曲。5.根据权利要求1所述的基于NA
‑
MEMD和MGWT识别蛋白质编码区的基因预测方法,其特征在于,步骤2的具体过程如下:步骤2
‑
1,NA
‑
MEMD应用于四个DNA结构序列组成的多元信号;假设:S(n)=[S
α
(n),S
β
(n),S
γ
(n),S
δ
(n)]|n=1,...,N是每个通道长度为N的分析结构序列,其中α、α、γ、δ分别代表DNA的弯曲刚度、双链断裂能、双链自由能和螺旋桨扭曲;步骤2
‑
2,创建一个q通道不相关的高斯白噪声n(t)=[n1(t),...,n
q
(t)],振幅为σ,将噪声添加到输入,获得(p+q)变量组合信息c(t)=[X1(t),n(t)];步骤2
‑
3,生成一个K均匀分布的θ
k
,对于所有的k(k=1,2,
…
,K)计算输入X1(t)的第k个投影其中步骤2
‑
4,找到时刻对应于所有的投影信号的最大值,内插以...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。