一种基于NA-MEMD和MGWT识别蛋白质编码区的基因预测方法技术

技术编号：32514387 阅读：35 留言：0更新日期：2022-03-02 11:06

本发明专利技术公开了一种基于NA

全部详细技术资料下载

【技术实现步骤摘要】
一种基于NA
‑
MEMD和MGWT识别蛋白质编码区的基因预测方法

[0001]本专利技术涉及生物医学工程和计算机领域，具体涉及一种基于噪声辅助的多元经验模态分解(NA
‑
MEMD)和小波变换(MGWT)识别蛋白质编码区的基因检测方法。

技术介绍

[0002]计算生物学是一个快速发展的领域，DNA序列蛋白质编码区的分析是生物信息学中最基本的应用之一。在过去的二十年中，已经提出了许多用于鉴定蛋白质编码区的方法。这些方法可以分为两类：模型相关方法和模型独立方法。对于前者，其实现方式在很大程度上取决于某些特定的先验信息或训练数据集，这些信息或训练数据集来自已知器官基因组信息的数据库。为了获得区分编码区域和非编码区域的分类器，在这些模型相关方法中，通过机器学习技术或概率学习模型训练了大量已知的高质量数据。这样，与模型相关的方法通常会获得比模型无关的方法更精确的识别结果。然而，尽管多个数据库已经提供了有关测序生物基因的详细注释，但分析的基因组序列仍可能包含并非来自可用数据库的编码区。从这个意义上讲，过...

【技术保护点】

【技术特征摘要】
1.一种基于NA
‑
MEMD和MGWT识别蛋白质编码区的基因预测方法，其特征在于，包括如下步骤：步骤1，对DNA序列进行数值映射，将其转换为四个DNA结构序列组成的四通道数字信号；步骤2，对得到的四通道数字信号进行NA
‑
MEMD分解，得到多元本征模态函数信号，并利用分解结果重构四通道分析信号；步骤3，利用小波变换MGWT计算重构信号的局部频谱，将四通道分析信号的小波系数相加并将结果投影到位置轴上，最终得到DNA序列的3周期光谱，以识别DNA序列中的蛋白质编码区。2.根据权利要求1所述的基于NA
‑
MEMD和MGWT识别蛋白质编码区的基因预测方法，其特征在于，步骤1中，对DNA序列进行数值映射的过程如下：步骤1
‑
1，将DNA序列表示为四个字母A、C、G、T组成的符号字符串，利用DNA分子物理特性的高级结构信息将DNA序列中的每个二核苷酸用其相应的结构值代替；步骤1
‑
2，为了促进NA
‑
MEMD的分解性能，将每个结构轮廓中的特征值线性归一化到[0,1]的范围，将DNA序列转换为四通道数字信号，该信号用于进行频谱分析。3.根据权利要求2所述的基于NA
‑
MEMD和MGWT识别蛋白质编码区的基因预测方法，其特征在于，步骤1
‑
1中，所述结构值从实验验证的转化表获得。4.根据权利要求2所述的基于NA
‑
MEMD和MGWT识别蛋白质编码区的基因预测方法，其特征在于，步骤2
‑
2中，将DNA序列转换为四通道数字信号具体表示为：S(n)＝[S
α
(n)，S
β
(n)，S
γ
(n)，S
δ
(n)]|n＝1，...，N式中，S(n)是每个通道长度为N的分析结构序列，α、α、γ、δ分别代表DNA的弯曲刚度、双链断裂能、双链自由能和螺旋桨扭曲。5.根据权利要求1所述的基于NA
‑
MEMD和MGWT识别蛋白质编码区的基因预测方法，其特征在于，步骤2的具体过程如下：步骤2
‑
1，NA
‑
MEMD应用于四个DNA结构序列组成的多元信号；假设：S(n)＝[S
α
(n)，S
β
(n)，S
γ
(n)，S
δ
(n)]|n＝1，...，N是每个通道长度为N的分析结构序列，其中α、α、γ、δ分别代表DNA的弯曲刚度、双链断裂能、双链自由能和螺旋桨扭曲；步骤2
‑
2，创建一个q通道不相关的高斯白噪声n(t)＝[n1(t)，...，n
q
(t)]，振幅为σ，将噪声添加到输入，获得(p+q)变量组合信息c(t)＝[X1(t)，n(t)]；步骤2
‑
3，生成一个K均匀分布的θ
k
，对于所有的k(k＝1，2，
…
，K)计算输入X1(t)的第k个投影其中步骤2
‑
4，找到时刻对应于所有的投影信号的最大值，内插以...

【专利技术属性】
技术研发人员：谢磊，陈韬，郑潜，苏宏业，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人