语音速度调整方法技术

技术编号:3046660 阅读:224 留言:0更新日期:2012-04-11 18:40
一种语音速度调整方法,是一种基于波形运算的语音速度调整方法,首先将语音波形资料分割为多个相重迭的语音音框,再分析调整速度及调整前后音框资料的相关性,调整波形的相位及音框的相对位置,达成速度调整的目的。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术是关于一种语音发音速度调整方法,特别是一种基于波形运算的语音发音速度调整方法。
技术介绍
目前,市面上的可携式电子装置的随身数字产品中,如个人数字助理(PDA)与电子辞典等,许多都设有语言学习的功能,其标榜的是随时随地均可进行语言的学习,除了解决携带语言学习书籍的不便,更打破了空间的限制。这些语言学习功能均是将一段会话预先录制于可携式电子装置中,使得使用者可以直接进行听力的学习。然而为了适应各种程度的使用者,一般的电子字典的语言学习功能都会有可调整的语音功能,对于使用者来说,是相当方便的功能。然而,这些可携式电子装置中,其储存容量与运算能力均不如桌上型计算机强大,因此不可能以太复杂的运算在这些可携式电子装置上进行语音速度的调整。另一方面,语音压缩的规格不断的演变,如果目前有较新规格且录制语音效果较好的规格出现,则必须针对这些规格再重新研发新的语音调整方法,无异是一种研发成本与人力的浪费。语音发音速度的调整,对一个学习系统来说是非常重要的,更是不可或缺的关键技术。虽然已有相关的语音发音速度调整方法,但有些仅限于LPC编码格式,在译码时,藉由设定不同的编码与译码时所用的音框长度比,来达成语音发音速度的调整,然而对于其它编码格式的语音发音系统,如MP3(MPEG Layer3)、GSM、CELP、ADPCM(AdaptiveDifferential Pulse Code Modulation)等,均无法适用。因此,一种可以调整各种编码格式的语音发音速度调整方法,实属必要。
技术实现思路
鉴于以上的问题,本专利技术的主要目的在于提供一种语音发音速度调整方法,是一种基于波形运算的语音发音速度调整方法,将语音波形资料以汉宁窗口(Hanning window)分成数个重叠的音框,藉由分析调整速率及调整前后音框资料的相关性,来调整波形的相位及音框的相对位置,达成发音速度的调整。因此,为达上述目的,本专利技术所公开的,是利用一语音资料调整出不同的播放速度,首先决定一调整速率、一语音音框长度(约30ms)以及一调整参数,接着依据该调整速度,在该语音资料的波形平移一固定范围内取一合成音框,共取得可涵盖该语音资料的多个合成音框,再调整该合成音框的相位,最后将该调整相位后的合成音框重新合成后输出。其中,相位调整是取一与上一合成音框保持相位连续的一参考音框,再决定所有在波形平移一固定范围内波形平移一固定量的合成音框与该参考音框的相关性,最后取相关性最大者输出为调整相位后的合成音框。附图说明图1是本专利技术所公开的的流程图;图2是本专利技术所公开的中,语音音框相位修正的流程图;图3是本专利技术所公开的的实施例流程图;图4是本专利技术所公开的中,语音音框相位修正的步骤31取一与上一合成音框保持相位连续的参考音框步骤32计算所有在波形平移一固定范围内波形平移一固定量的合成音框与参考音框的相关性步骤33取相关性最大者为输出合成音框步骤100决定一长度为M的语音音框,并以该长度M为依据决定一调整速度ΔM步骤200利用该长度为M的语音音框将一长度为N的语音资料分割为K+1个相互重叠的语音音框,其中该相互重叠的语音音框的间距为ΔM步骤300决定该相互重叠的语音音框的相位修正值步骤400依据该相位修正值,将该K+1个相互重叠的语音音框重新合成为一调整后的语音资料步骤310k=0,p-1=-M/2步骤320第k-1个语音音框为z1(m)=xk-1(m+pk-1+M/2)步骤330令相位修正值j=-M/4步骤340第k个语音音框为z2(m)=xk(m+DM*k+j)步骤350由第k-1个语音音框与第k个语音音框找出第k个语音音框的相位修正值步骤360将相位修正值加1步骤370相位修正值是否大于M/4步骤380k=k+1步骤390是否已完成最后一个音框的相位修正值具体实施方式有关本专利技术的特征与实际操作,兹配合附图对最佳实施例详细说明如下。首先请参考图1,为本专利技术所公开的的流程图,其利用一语音资料调整出不同的播放速度,首先决定一调整速率、一语音音框长度(约30ms)以及一调整参数(步骤10),接着依据该调整速度,在该语音资料的波形平移一固定范围内取一合成音框(步骤20),共取得可涵盖该语音资料的多个合成音框,其中该固定范围在本专利技术中定在一M/4与M/4的间(M为音框长度),即为该语音音框长度的前后四分之一,然后再调整该合成音框的相位(步骤30),最后将该调整相位后的合成音框重新合成后输出(步骤40)。其中步骤30的相位调整是取一与上一合成音框保持相位连续的一参考音框(步骤31),再决定所有在波形平移一固定范围内波形平移一固定量的合成音框与该参考音框的相关性(步骤32),最后取相关性最大者输出为调整相位后的合成音框(步骤33)。其相位调整流程图如图2所示。请继续参考图3,为本专利技术所公开的的实施例流程图,在步骤100中,决定一长度为M的语音音框,并以欲调整速度为依据决定一位移调整量ΔM;接着在步骤200,利用该长度为M的语音音框将一长度为N的语音资料分割为K+2个相互重叠的语音音框,其中该相互重叠的语音音框的间距为ΔM;在步骤300中,决定该相互重叠的语音音框的相位修正值;最后,在步骤400中再依据该相位修正值,将该K+2个相互重叠的语音音框重新合成为一调整后的语音资料。继续说明如何调整语音的速度。请参考图5,为一语音资料x(n)的波形图,其长度为N,其中n=0,1,2,……,N-1。在步骤200中,将语音资料x(n)分割成多个相重叠的语音音框,是藉由汉宁窗口(Hanningwindow)来达成。因此,仅需要语音资料的波形资料,而不需考虑其规格,即可利用本专利技术所公开的方法达成调整语音速度的目的。将x(n)以汉宁窗口(Hanning window)分成多个重叠的音框,每一个窗口的音框长度M,汉宁窗口的函数是以w(m)=0.5-0.5*cos(2*π*m/M)表示,m代表每一样本点,m=0、1、2、…、M-1。令为yk调整后的语音音框,yk(m+M/2*k)=xk(m+ΔM*k)=w(m)*x(m+ΔM*k),其中m=0、1、2、…、M-1,k代表所分割成的音框数,k=-1、0、1、2、…、K。xk(m+ΔM*k)代表分割后的语音音框,ΔM为每一语音音框的距离,yk(m+M/2*k)中的M/2代表将原本的语音资料以ΔM分割后,再以将该分割后的语音资料以M/2为距离,重新合成。由于分割后的音框必须要涵盖原来的波形,因此分割后的语音音框数必须可以涵盖原来的波形,因此K必须满足K>=(N-M/2)/ΔM。令y(n)为调整后的语音资料,为每一个分割后音框的总和,y(n)=Σk=-1Kyk(n),n=0,1,2,3,...,]]>Ny-1,Ny=N*(M/2)/ΔM其中ΔM即为语音速度调整的参数。当ΔM=M/2时,代表语音速度与原来相同,当ΔM>M/2,代表语音速度较原来快,当ΔM<M/2,代表语音速度较原来慢。若将ΔM设为4M/16、5M/16、6M/16、7M/16、8M/16、9M/16、10M/16、11M/16、12M/16,则可将语音速度区分为九个等级,ΔM/(M/2)=4/8、5/8、6/8、7/8、8/8、9/8、10/8、11/8本文档来自技高网...

【技术保护点】
一种语音速度调整方法,是利用一语音资料调整出不同的播放速度,包括下列步骤:    决定一调整速率、一语音音框长度以及一调整参数;    依据该调整速度与该调整参数,在该语音资料的波形平移一固定范围内取一合成音框,共取得可涵盖该语音资料的多个合成音框,其中该固定范围即为该语音音框长度;    调整该合成音框的相位;以及    将该调整相位后的合成音框重新合成后输出。

【技术特征摘要】
1.一种语音速度调整方法,是利用一语音资料调整出不同的播放速度,包括下列步骤决定一调整速率、一语音音框长度以及一调整参数;依据该调整速度与该调整参数,在该语音资料的波形平移一固定范围内取一合成音框,共取得可涵盖该语音资料的多个合成音框,其中该固定范围即为该语音音框长度;调整该合成音框的相位;以及将该调整相位后的合成音框重新合成后输出。2.如权利要求1所述的语音速度调整方法,其中该调整该合成音框的相位的步骤中更包括有下列步骤取一与上一合成音框保持相位连续的一参考音框;决定所有在波形平移一固定范围内波形平移一固定量的合成音框与该参考音框的相关性;以及取相关性最大者输出为调整相位后的合成音框。3.一种语音速度调整方法,是利用一语音资料调整出不同的播放速度,包括有下列步骤决定一长度为M的语音音框,并以欲调整数读为依据,决定一位移调整量ΔM;利用该长度为M的语音音框将一长度为N的语音资料分割为K+2个相互重迭的语音音框,其中该相互重迭的语音音框的间距为ΔM;决定该相互重迭的语音音框的相位修正值;以及依据该相位修正值,将该K+2个相互重迭的语音音框重新合成为一...

【专利技术属性】
技术研发人员:杨凰琳
申请(专利权)人:无敌科技股份有限公司
类型:发明
国别省市:71[中国|台湾]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1