当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于NA-MEMD和MGWT识别蛋白质编码区的基因预测方法技术

技术编号:32514387 阅读:35 留言:0更新日期:2022-03-02 11:06
本发明专利技术公开了一种基于NA

【技术实现步骤摘要】
一种基于NA

MEMD和MGWT识别蛋白质编码区的基因预测方法


[0001]本专利技术涉及生物医学工程和计算机领域,具体涉及一种基于噪声辅助的多元经验模态分解(NA

MEMD)和小波变换(MGWT)识别蛋白质编码区的基因检测方法。

技术介绍

[0002]计算生物学是一个快速发展的领域,DNA序列蛋白质编码区的分析是生物信息学中最基本的应用之一。在过去的二十年中,已经提出了许多用于鉴定蛋白质编码区的方法。这些方法可以分为两类:模型相关方法和模型独立方法。对于前者,其实现方式在很大程度上取决于某些特定的先验信息或训练数据集,这些信息或训练数据集来自已知器官基因组信息的数据库。为了获得区分编码区域和非编码区域的分类器,在这些模型相关方法中,通过机器学习技术或概率学习模型训练了大量已知的高质量数据。这样,与模型相关的方法通常会获得比模型无关的方法更精确的识别结果。然而,尽管多个数据库已经提供了有关测序生物基因的详细注释,但分析的基因组序列仍可能包含并非来自可用数据库的编码区。从这个意义上讲,过度依赖数据库会降低这本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于NA

MEMD和MGWT识别蛋白质编码区的基因预测方法,其特征在于,包括如下步骤:步骤1,对DNA序列进行数值映射,将其转换为四个DNA结构序列组成的四通道数字信号;步骤2,对得到的四通道数字信号进行NA

MEMD分解,得到多元本征模态函数信号,并利用分解结果重构四通道分析信号;步骤3,利用小波变换MGWT计算重构信号的局部频谱,将四通道分析信号的小波系数相加并将结果投影到位置轴上,最终得到DNA序列的3周期光谱,以识别DNA序列中的蛋白质编码区。2.根据权利要求1所述的基于NA

MEMD和MGWT识别蛋白质编码区的基因预测方法,其特征在于,步骤1中,对DNA序列进行数值映射的过程如下:步骤1

1,将DNA序列表示为四个字母A、C、G、T组成的符号字符串,利用DNA分子物理特性的高级结构信息将DNA序列中的每个二核苷酸用其相应的结构值代替;步骤1

2,为了促进NA

MEMD的分解性能,将每个结构轮廓中的特征值线性归一化到[0,1]的范围,将DNA序列转换为四通道数字信号,该信号用于进行频谱分析。3.根据权利要求2所述的基于NA

MEMD和MGWT识别蛋白质编码区的基因预测方法,其特征在于,步骤1

1中,所述结构值从实验验证的转化表获得。4.根据权利要求2所述的基于NA

MEMD和MGWT识别蛋白质编码区的基因预测方法,其特征在于,步骤2

2中,将DNA序列转换为四通道数字信号具体表示为:S(n)=[S
α
(n),S
β
(n),S
γ
(n),S
δ
(n)]|n=1,...,N式中,S(n)是每个通道长度为N的分析结构序列,α、α、γ、δ分别代表DNA的弯曲刚度、双链断裂能、双链自由能和螺旋桨扭曲。5.根据权利要求1所述的基于NA

MEMD和MGWT识别蛋白质编码区的基因预测方法,其特征在于,步骤2的具体过程如下:步骤2

1,NA

MEMD应用于四个DNA结构序列组成的多元信号;假设:S(n)=[S
α
(n),S
β
(n),S
γ
(n),S
δ
(n)]|n=1,...,N是每个通道长度为N的分析结构序列,其中α、α、γ、δ分别代表DNA的弯曲刚度、双链断裂能、双链自由能和螺旋桨扭曲;步骤2

2,创建一个q通道不相关的高斯白噪声n(t)=[n1(t),...,n
q
(t)],振幅为σ,将噪声添加到输入,获得(p+q)变量组合信息c(t)=[X1(t),n(t)];步骤2

3,生成一个K均匀分布的θ
k
,对于所有的k(k=1,2,

,K)计算输入X1(t)的第k个投影其中步骤2

4,找到时刻对应于所有的投影信号的最大值,内插以...

【专利技术属性】
技术研发人员:谢磊陈韬郑潜苏宏业
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1