一种基于音频特征参数的多语种场景分析方法技术

技术编号:19829331 阅读:19 留言:0更新日期:2018-12-19 17:07
本发明专利技术涉及一种基于音频特征参数的多语种场景分析方法,属于音频信号处理技术领域。针对多段不同内容的样本,对各种语种进行语音信号录制,分别对每个语种进行相同时间的录制,时间一定,录制软件为GoldWave,格式为Wav,录制后得到每种语种的多段对比语音信号;先进行A/D转换,然后预加重处理,再进行分帧处理,最后对语音信号进行加窗函数处理;用时域分析方法提取待测的多语种音频信号信息的时域特征参数;用频域分析方法提取待测的多语种音频信号信息的频域特征参数;用倒谱分析方法提取待测的多语种音频信号信息的倒谱特征参数;利用提取的各个语种的特征量,分析各语种之间的差异,进行多语种的场景分析和判别。

【技术实现步骤摘要】
一种基于音频特征参数的多语种场景分析方法
本专利技术涉及一种基于音频特征参数的多语种场景分析方法,属于音频信号处理

技术介绍
随着时代的进步,世界的发展,各国的交流越来越频繁,语言是阻碍每个国家之间交流的重要原因,因此对于各国多语种的语音识别显得尤为重要,每种语言都有它们的特点,利用改进的音频提取方法可以更好将它们分类,得到它们各自的特征参数,进而实现多语种的场景分析。
技术实现思路
本专利技术要解决的技术问题是提供一种基于音频特征参数的多语种场景分析方法,对多个语种进行音频特征参数的提取,并对不同特征参数计算的结果进行分类总结,得出不同语种的特点和差异。本专利技术的技术方案是:一种基于音频特征参数的多语种场景分析方法:(1)录制样本:针对多段不同内容的样本,对各种语种进行语音信号录制,分别对每个语种进行相同时间的录制,时间一定,录制软件为GoldWave,格式为Wav,录制后得到每种语种的多段对比语音信号;(2)预处理:先进行A/D转换,然后预加重处理,再进行分帧处理,最后对语音信号进行加窗函数处理;(3)提取特征参数:用时域分析方法提取待测的多语种音频信号信息的时域特征参数;用频域分析方法提取待测的多语种音频信号信息的频域特征参数;用倒谱分析方法提取待测的多语种音频信号信息的倒谱特征参数;然后对提取到的参数进行时域特征分析,如若可以得出差异,则频域分析和倒谱分析就不再有必要;如若不能得出差异,则对语音样本进行频域分析;如若还不能得出差异,则对语音样本进行倒谱分析。提取顺序为时域分析、频域分析、倒谱分析。把音频信号进行时域、频域、倒谱分析后,两两对比,分别比对两个语种信号之间特征参数的差异。(4)利用提取的各个语种的特征量,分析各语种之间的差异,进行多语种的场景分析和判别。所述预处理包括四个步骤:A/D转换、预加重处理、分帧处理、加窗函数;(1)A/D转换:将数字信号转化为模拟信号;AD转换就是模数转换,把模拟信号转换成数字信,经过A/D转换,得出数字信号,得到更有益于我们分析和参数提取的信号样本。(2)预加重处理:将语音信号通过一个高通滤波器,采用数字电路的方式提升语音中的高频部分,得到利于频谱处理的信号样本。(3)分帧处理:将信号分为较短的帧,视为可被处理的稳态信号,令帧与帧之间有帧移,取帧长的1/2。利用语音信号的短时分析将信号分割成若干个语音段,一段为一帧,每段在10-30ms,让帧与帧之间有部分重叠,使帧与帧之间平滑过渡,得到重叠的部分为帧移,取帧长的1/2。语音信号是个准稳态信号,把它分成较短的帧,将其看成稳态信号,用处理稳态信号的方法去处理。(4)加窗函数:对分帧过的语音样本进行加窗函数处理,得到的每一帧语音乘以汉明窗或海宁窗。减弱了频域中的泄漏。所述时域特征参数包括短时平均过零率、短时自相关函数、短时能量、高过零率帧的比重、低能量帧的比重、短时平均幅度;所述频域特征参数是短时功率谱密度函数;所述倒谱域特征参数包括梅尔频率倒谱系数(MFCC)和线性预测倒谱系数(LPCC)。根据现有的特征并加以改进。所述多语种场景分析是针对多组不同内容的文字,对它们进行多种语种的录制。音频格式为WAV格式,时间一定,然后对它们分别进行音频特征的提取:短时平均过零率、短时能量、短时互相关函数、短时平均幅度、高过零率帧的比重、低能量帧的比重、短时功率谱密度函数、改进的梅尔频率倒谱系数、改进的线性预测倒谱系数。得到它们的音频特征参数后,将它们进行音频特征参数比对和场景分析,利用matlab得到每种语种的特点,从而识别出不同语种。包括以下步骤:(1)短时平均过零率:提取语音信号的短时平均过零率,得到待测语音信号的短时平均过零率参数;(2)短时能量:提取语音信号的短时能量,得到待测语音信号的短时能量参数;(3)短时互相关函数:提取两种语音信号的短时互相关函数,得到两个语音信号的相关程度;(4)短时平均幅度:提取语音信号的短时平均幅度,得到待测语音信号的短时平均幅度参数;(5)高过零率帧的比重:提取语音信号的高过零率帧的比重,得到待测语音信号的高过零率帧的比重参数;(6)低能量帧的比重:提取语音信号的低能量帧的比重,得到待测语音信号的低能量帧的比重参数;(7)短时功率谱密度函数:提取语音信号的短时功率谱密度函数,得到待测语音信号的短时功率谱密度函数参数;(8)梅尔频率倒谱系数:提取语音样本优化过的梅尔频率倒谱系数,得到待测语音信号的梅尔频率倒谱系数参数;(9)线性预测倒谱系数:提取语音样本的线性预测倒谱系数,得到待测语音信号的线性预测倒谱系数参数;(10)强得到的参数进行音频特征参数比对和场景分析,利用matlab得到每种语种的特点,从而识别出不同语种。本专利技术的有益效果是:通过利用时域、频域、倒谱三个层次,能更好的判断多语种的场景属性,得出不同语种的特点和差异,具有很高的使用价值。附图说明图1是本专利技术的步骤流程图。具体实施方式下面结合附图和具体实施方式,对本专利技术作进一步说明。实施例1:如图1所示,一种基于音频特征参数的多语种场景分析方法,包括以下步骤:1、首先进行语音信号的录制:利用百度翻译进行多种语种的语音信号录制,针对40段不同内容的文字,分别对每个语种进行相同时间的录制,录制软件为GoldWave,格式为Wav,录制后得到每种语种的40段对比语音信号。2、预处理:预处理包括A/D转换,预加重,分帧,加窗。(1)A/D转换:将数字信号转化为模拟信号,更好的进行之后的信号处理。(2)预加重:将语音信号通过一个高通滤波器,频谱变得更平坦。(3)分帧:将信号分为较短的帧,视为可被处理的稳态信号,令帧与帧之间有帧移,取帧长的1/2。(4)加窗:给每一帧的信号加上汉明窗或汉宁窗,减少频域的泄露。录制的多语种语音信号经过预处理后,帧长为256点,帧移128点,音频信号的采样率为44.1KHz,待测音频信号均分为m帧。3、从预处理过的语音信号中分别提取时域特征参数,频域特征参数以及倒谱特征参数。3.1、时域特征参数时域特征参数包括短时平均过零率、短时自相关函数、短时能量、高过零率帧的比重、低能量帧的比重、短时平均幅度。(1)短时平均过零率定义:在离散时间语音信号的情况下,如果相邻的采样具有不同的代数符号就称其为发生了过零。单位时间内过零的次数就称为短时平均过零率。短时过零率的公式为:其中,sgn()函数是符号函数,即N为一帧的长度,n为对应的帧数,按帧处理。(2)短时能量语音一般分为无声段,清音段和浊音段。虽然信号是一个非平稳态过程,但是在相对短时间内,如10-30ms的范围,其特性可以看做一个准稳态过程。由于语音信号的能量随时间而变化,清音和浊音之间的能量差别相当显著,因此对短时能量和短时平均幅度进行分析,可以描述语音的这种特征变换情况。定义n时刻某语音信号的短时平均能量E为:短时平均能量用途:可以作为区分清音和浊音的特征参数;信噪比比较高的情况下,短时能量可以作为区分有声和无声的依据;可以作为辅助的特征参数用于语音识别中。语音和噪声的区别可以体现在他们的能量上,语音段的能量比噪声段的能量大,如果环境噪声和系统输入的噪声比较小,只要计算输入信号的短时能量就能够把语音段和噪声背景区分开,除此之外,用基于能量的算法来检本文档来自技高网...

【技术保护点】
1.一种基于音频特征参数的多语种场景分析方法,其特征在于:(1)录制样本:针对多段不同内容的样本,对各种语种进行语音信号录制,分别对每个语种进行相同时间的录制,时间一定,录制软件为GoldWave,格式为Wav,录制后得到每种语种的多段对比语音信号;(2)预处理:先进行A/D转换,然后预加重处理,再进行分帧处理,最后对语音信号进行加窗函数处理;(3)提取特征参数:用时域分析方法提取待测的多语种音频信号信息的时域特征参数;用频域分析方法提取待测的多语种音频信号信息的频域特征参数;用倒谱分析方法提取待测的多语种音频信号信息的倒谱特征参数;(4)利用提取的各个语种的特征量,分析各语种之间的差异,进行多语种的场景分析和判别。

【技术特征摘要】
1.一种基于音频特征参数的多语种场景分析方法,其特征在于:(1)录制样本:针对多段不同内容的样本,对各种语种进行语音信号录制,分别对每个语种进行相同时间的录制,时间一定,录制软件为GoldWave,格式为Wav,录制后得到每种语种的多段对比语音信号;(2)预处理:先进行A/D转换,然后预加重处理,再进行分帧处理,最后对语音信号进行加窗函数处理;(3)提取特征参数:用时域分析方法提取待测的多语种音频信号信息的时域特征参数;用频域分析方法提取待测的多语种音频信号信息的频域特征参数;用倒谱分析方法提取待测的多语种音频信号信息的倒谱特征参数;(4)利用提取的各个语种的特征量,分析各语种之间的差异,进行多语种的场景分析和判别。2.根据权利要求1所述的基于音频特征参数的多语种场景分析方法,其特征在于:所述预处理包括四个步骤:A/D转换、预加重处理、分帧处理、加窗函数;(1)A/D转换:将数字信号转化为模拟信号;(2)预加重处理:将语音信号通过一个高通滤波器,采用数字电路的方式提升语音中的高频部分,得到利于频谱处理的信号样本。(3)分帧处理:将信号分为较短的帧,视为可被处理的稳态信号,令帧与帧之间有帧移,取帧长的1/2。(4)加窗函数:对分帧过的语音样本进行加窗函数处理,得到的每一帧语音乘以汉明窗或海宁窗。3.根据权利要求1所述的基于音频特征参数的多语种场景分析方法,其特征在于:所述时域特征参数包括短时平...

【专利技术属性】
技术研发人员:龙华周金傲邵玉斌杜庆治
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1