基于变步长最小均方误差自适应滤波器的基因识别系统技术方案

技术编号:15763525 阅读:223 留言:0更新日期:2017-07-06 01:31
本发明专利技术公开了一种基于变步长最小均方误差自适应滤波器的基因识别系统,包括变步长LMS自适应滤波器算法改进单元和基因结构多特征加权融合算法处理单元;所述的变步长LMS自适应滤波器算法改进单元,用于通过变步长LMS自适应改进算法对基因序列进行滤波处理,得到随机噪声较少、周期3行为较强的基因特征;所述的基因结构多特征加权融合算法处理单元,用于通过多特征加权融合策略,对基因序列进行特征提取,从而得到表达能力更强的特征向量。本发明专利技术提出了变步长LMS自适应滤波器改进算法和多特征加权融合算法,并将二者集成到同一个基因识别系统中,进一步改善其识别性能。

Genetic recognition system based on variable step size minimum mean square error adaptive filter

The invention discloses a variablestep LMS adaptive filter gene recognition system, including variable step size LMS adaptive filter algorithm to improve the element and the gene structure of multi feature weighted fusion algorithm processing unit; improved variable step size LMS adaptive filter algorithm of the unit for improvement by variable step size LMS adaptive algorithm to filter gene sequence, random noise, less cycle 3 strong gene behavior characteristics; gene structure of the multi feature weighted fusion algorithm for processing unit, through the multi feature weighted fusion strategy for gene sequence feature extraction, feature vector to obtain more expressive power. The invention proposes a variable step size LMS adaptive filter improvement algorithm and a multiple feature weighting fusion algorithm, and integrates the two into the same gene identification system, and further improves the recognition performance.

【技术实现步骤摘要】
基于变步长最小均方误差自适应滤波器的基因识别系统
本专利技术涉及生物信息学中对测序获得的DNA序列进行可编码基因区域的识别和定位领域,具体涉及一种基于变步长最小均方误差(LMS)自适应滤波器的基因识别系统。
技术介绍
现阶段基因识别的研究取得了很多优秀的成果,形成了许多成熟的预测系统,但这些系统主要都依托于一些经典的机器学习标记方法,如HMM和CRF等,一般模型结构复杂,调节参数繁多,训练耗时且不易存储,同时系统特异性过强,不利于物种间的迁移通用。另外,针对短基因序列随机噪声大、特征信息稀少而识别率低等问题,也不能进行有效的抑制和解决。为了克服上述种种问题,国内外研究者们在数字信号处理技术、基因序列长程相关性以及统计特征等方面都做了大量的研究和分析,取得了不错的研究成果。
技术实现思路
本专利技术的目的在于提供一种基于变步长最小均方误差(LMS)自适应滤波器的基因识别系统,提出了变步长LMS自适应滤波器改进算法和多特征加权融合算法,并将二者集成到同一个基因识别系统中,进一步改善其识别性能。为实现上述目的,本专利技术采取的技术方案为:一种基于变步长最小均方误差自适应滤波器的基因识别系统,包括变步长LMS自适应滤波器算法改进单元和基因结构多特征加权融合算法处理单元;所述的变步长LMS自适应滤波器算法改进单元,用于通过变步长LMS自适应改进算法对基因序列进行滤波处理,得到随机噪声较少、周期3行为较强的基因特征;所述的基因结构多特征加权融合算法处理单元,用于通过多特征加权融合策略,对基因序列进行特征提取,从而得到表达能力更强的特征向量。研究表明,外显子编码区域对应的功率谱曲线在其π/3处通常可以观测到明显的波峰,而非编码区序列对应的功率谱曲线则观测不到如此波峰。假设系统输出为Y(n),分别定义其一阶、二阶变量为E1(n)=Y(n)-Y(n-1)E2(n)=E1(n)-E1(n-1)因为输出Y(n)中的波峰部分通常表示算法预测的外显子区域,对算法识别性能而言至关重要,所以着重改善算法对波峰曲线上升部分的预测十分必要。在波峰曲线处于上升阶段时,可以适当减小步长因子,以提高算法识别的准确性;而在其他部分,可以适当增大步长因子,以促使系统快速收敛并具备更强的实时追踪能力。依据函数微分的几何定义,曲线从波谷上升到波峰的阶段其斜率必有E1(n)>0,而其曲线斜率的变化趋势可能通常要经历一个由小变大再变小的过程。在曲线斜率增长变快时,希望调整步长相应越小,而曲线斜率增长变慢,则调整步长相应逐渐增大。为了满足这一要求,提出系统输出反馈与步长因子新的函数关联关系,公式定义如下其中,u0为初始步长,k为常数,且有1≤k<1/u0λmax,λmax为输入信号自相关矩阵最大的特征值。另外,一般LMS自适应滤波器基因识别算法研究中,通常定义A、C、G、T四种碱基对应的滤波器输出信号的平方和为Y(n),有Y(n)=|yA(n)|2+|yC(n)|2+|yG(n)|2+|yT(n)|2,在实际情况中,四种碱基对外显子的预测结果的影响可能不尽相同,造成yA(n),yC(n),yG(n),yT(n)对总输出Y(n)的贡献比率也应该各有不同。由仿真研究表明,碱基G、C的影响贡献率往往大于碱基A、T的影响,同时引入的噪声也相对更少。为了清晰表示出这种不同,提出根据基因序列GC含量与AT含量的比值作为权重重新定义系统的输出,即其中Tb>0,分别对应四种碱基的加权系数,且默认有TG=TC=1,TA=TT=1。基因结构多特征加权融合算法处理单元的主要设计思想是依据单一特征在同一统计分析方法下,对基因编码区识别的表征能力的强弱或者说影响贡献的大小,即AC指标,对所选择的基因结构多种特征进行加权融合,形成可统一维度大小的复合特征向量。本系统主要涉及四种编码区特征,分别为:碱基组成成分、碱基位置相关性、密码子使用频率以及周期3行为。具体实现步骤如下:1)、在同一统计分析方法下,分别单独使用上述提到的四种统计特征,训练判别模型并计算其对应的近似相关系数(AC)的算法评价指标,可记作feaACi,0≤i≤3。2)、选取四种单一特征指标最小的值,令各个特征的AC指标值分别除以最小指标值做归一化处理,其结果值作为对应特征的权值,表达式记为其中,feaACi分别对应上述四种统计特征的AC评估指标值,wi表示四种特征归一化后对应的权系数。3)、将四种特征中的每一个特征量与其对应的权值相乘,组合成一个75维的多特征融合向量继续用于基因识别的算法研究,表达式可记为其中,feaVeci表示第i个特征向量,wi表示第i个特征对应的权系数,fusionVec表示加权融合后的特征向量。注意,这里所有的单一特征分量维数不尽相同,融合前,需为每一特征量设定固定填充位置,其余位置用0填充,统一扩充到75维。本专利技术具有以下有益效果:提出了变步长LMS自适应滤波器改进算法和多特征加权融合算法,并将二者集成到同一个基因识别系统中,进一步改善其识别性能。附图说明图1为本专利技术实施例中变步长LMS改进算法处理过程小结。图2为本专利技术实施例中改进的多特征加权融合算法相应的处理框图。图3为本专利技术实施例中结合上述两种算法改进的基因识别系统的单序列识别流程图。具体实施方式为了使本专利技术的目的及优点更加清楚明白,以下结合实施例对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。研究表明,外显子编码区域对应的功率谱曲线在其π/3处通常可以观测到明显的波峰,而非编码区序列对应的功率谱曲线则观测不到如此波峰。假设系统输出为Y(n),分别定义其一阶、二阶变量为E1(n)=Y(n)-Y(n-1);E2(n)=E1(n)-E1(n-1);因为输出Y(n)中的波峰部分通常表示算法预测的外显子区域,对算法识别性能而言至关重要,所以着重改善算法对波峰曲线上升部分的预测十分必要。在波峰曲线处于上升阶段时,可以适当减小步长因子,以提高算法识别的准确性;而在其他部分,可以适当增大步长因子,以促使系统快速收敛并具备更强的实时追踪能力。依据函数微分的几何定义,曲线从波谷上升到波峰的阶段其斜率必有E1(n)>0,而其曲线斜率的变化趋势可能通常要经历一个由小变大再变小的过程。在曲线斜率增长变快时,希望调整步长相应越小,而曲线斜率增长变慢,则调整步长相应逐渐增大。为了满足这一要求,提出系统输出反馈与步长因子新的函数关联关系,公式定义如下其中,u0为初始步长,k为常数,且有1≤k<1/u0λmax,λmax为输入信号自相关矩阵最大的特征值。另外,一般LMS自适应滤波器基因识别算法研究中,通常定义A、C、G、T四种碱基对应的滤波器输出信号的平方和为Y(n),有Y(n)=|yA(n)|2+|yC(n)|2+|yG(n)|2+|yT(n)|2,在实际情况中,四种碱基对外显子的预测结果的影响可能不尽相同,造成yA(n),yC(n),yG(n),yT(n)对总输出Y(n)的贡献比率也应该各有不同。由仿真研究表明,碱基G、C的影响贡献率往往大于碱基A、T的影响,同时引入的噪声也相对更少。为了清晰表示出这种不同,提出根据基因序列GC含量与AT含量的比值作为权重重新定义系统的输出,即其中Tb>0,分别对应四种碱基的加权本文档来自技高网...
基于变步长最小均方误差自适应滤波器的基因识别系统

【技术保护点】
一种基于变步长最小均方误差自适应滤波器的基因识别系统,其特征在于,包括变步长LMS自适应滤波器算法改进单元和基因结构多特征加权融合算法处理单元;所述的变步长LMS自适应滤波器算法改进单元,用于通过变步长LMS自适应改进算法对基因序列进行滤波处理,得到随机噪声较少、周期3行为较强的基因特征;所述的基因结构多特征加权融合算法处理单元,用于通过多特征加权融合策略,对基因序列进行特征提取,从而得到表达能力更强的特征向量。

【技术特征摘要】
1.一种基于变步长最小均方误差自适应滤波器的基因识别系统,其特征在于,包括变步长LMS自适应滤波器算法改进单元和基因结构多特征加权融合算法处理单元;所述的变步长LMS自适应滤波器算法改进单元,用于通过变步长LMS自适应改进算法对基因序列进行滤波处理,得到随机噪声较少、周期3行为较强的基因特征;所述的基因结构多特征加权融合算法处理单元,用于通过多特征加权融合策略,对基因序列进行特征提取,从而得到表达能力更强的特征向量。2.如权利要求1所述的基于变步长最小均方误差自适应滤波器的基因识别系统,其特征在于,所述变步长LMS自适应滤波器算法改进单元通过以下步骤实现:S1、设计出新的系统输出反馈与步长因子相关联的函数;S2、利用基因序列GC含量的特征信息对系统输出进行加权。3.如权利要求2所述的基于变步长最小均方误差自适应滤波器的基因识别系统,其特征在于,所述新的系统输出反馈与步长因子相关联的函数公式定义如下其中,u0为初始步长,k为常数,且有1≤k<1/u0λmax,λmax为输入信号自相关矩阵最大的特征值。4.如权利要求2所述的基于变步长最小均方误差自适应滤波器的基因识别系统,其特征在于,所述步骤S2中根据基因序列GC含量与AT含量的比值作为权重重新定义系统的输出,即

【专利技术属性】
技术研发人员:郭睿徐勇张健
申请(专利权)人:哈尔滨工业大学深圳研究生院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1