用于数字音频数据的编码方法和解码方法技术

技术编号:3445993 阅读:144 留言:0更新日期:2012-04-11 18:40
用于数字音频数据的编码方法和解码方法,能够根据不同的数字内容并且无需牺牲话音清晰度而改变再现速度。该编码方法包括以下步骤:对于每一个预定的离散频率产生成对的数字化正弦波分量和余弦波分量,并且,通过使用该正弦波和余弦波分量,从以预定采样周期采样的数字语音数据中,提取该正弦波分量的幅度信息和该余弦波分量的幅度信息,帧数据包括各对根据相应离散频率所提取的正弦波分量幅度信息和余弦波分量幅度信息,其随后被作为编码音频数据的一部分而依次产生。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及编码和解码以一预定时间采样的数字音频数据的方法。
技术介绍
有某些常规方法被称为信号波形的时基插值和展开法,其用于改变再现速度同时保持说话的音调周期(pitch period)和清晰度。这些方法也适用于语音编码。即在编码之前,语音数据曾经受到时标压缩,而在解码之后,该语音数据的时标被扩展,从而实现信息压缩。基本上,该信息压缩是通过在音调周期削去一个信号波形实现的,并且所压缩的信息基于在子波之间的间隔插入新的子波的信号波形插值而扩展。用于这个过程的方法包括时域调和定标(Time Domain HarmonicScaling,TDHS)和PICOLA(指针间隔控制重叠及添加),它们是以三角形窗削去和插值、同时保持在该时域中语音间距的周期性的方法,并且是通过快速傅里叶变换在频域内削去和插值的方法。这些方法具有非周期性的和瞬变的部分处理问题,并且在解码方扩展量化语音数据的过程中很可能出现失真。在之前和之后的帧中保持语音间距的周期性的同时,插入子波的方法实际上也适用于当一个帧的子波或者信息在分组传输中完全丢失时的情况。在上述波形插值中作为在信息压缩上的改进而提出的方法包括基于时间频率插值(TFI)、典型波形插值(PWI)或者更常规的波形插值(WI)的编码方法。
技术实现思路
本专利技术人研究了上述的现有技术,并且发现以下问题。即,由于在解码中,带有再现速度改变功能的常规的语音数据编码方法被配置为编码数据而以较高优先级给予语音的音调信息,故它们可以被用于处理语音本身,但是不能施用于包括除语音以外声音的数字内容,例如音乐本身、带有音乐背景的声音等等。因此,事实上是带有再现速度变换功能的常规的语音数据编码方法仅在电话等等有限的
中适用。完成本专利技术就是为了解决上述问题,并且本专利技术的一个目的就是提供数字音频数据的编码和解码方法,以供编码和解码经由不同的数据通信和记录介质以及电话传输的数字内容(其典型地是声音、电影、新闻等等数字信息,主要包括音频数据且其以下将被称为数字音频数据),同时在音频清晰度得到保持的情况下,允许提高数据压缩率、改变再现速度等等。根据本专利技术的数字音频数据的编码方法无需降低音频的清晰度而能够令人满意地进行数据压缩。根据本专利技术的数字音频数据的解码方法,通过利用由根据本专利技术的数字音频数据的编码方法所编码的该编码音频数据,能够容易和自由地改变再现速度而无需在间隔方面改变。根据本专利技术的数字音频数据的编码方法包括以下步骤预先设定以预定间隔分隔的离散频率;基于成对的正弦分量和余弦分量——其中各分量对应于每个离散频率且每个分量被数字化,而在每个第二周期上,从以第一周期采样的数字音频数据中提取正弦分量和余弦分量对的幅度信息项;并且作为编码的音频数据的一部分,依次产生帧数据,该帧数据包括在相应离散频率上提取的正弦和余弦分量的幅度信息项对。特别是,在所述数字音频数据的编码方法中,为预先确定的间隔所分隔的离散频率被设定于受到采样的数字音频数据的频域内,并且在这些离散频率中的每一个频率上产生一对数字化的正弦分量和余弦分量。例如,公开号为2000-81897的日本专利申请公开了这样一种方法编码方受到配置而将整个频率范围划分为多个频带,并在所划分的这些频带的每一个频带中提取幅度信息,且解码方受到配置而以所提取的幅度信息产生正弦波,并且合成在相应频带中产生的正弦波以获得原始音频数据。划分频带通常借助于数字滤波器实现。在此情况下,当分隔精确度被提高时,处理量变得非常大;因此,难于提高编码的速度。相比之下,由于根据本专利技术的数字音频数据的编码方法被配置成在所有频率中的相应离散频率上产生正弦和余弦分量对,并且提取相应的正弦和余弦分量的幅度信息项,故本方法可用于提高编码处理的速度。特定地,在所述数字音频数据的编码方法中,相对于采样周期的第一周期而在每个第二周期上,使数字音频数据与每一个彼此成对的正弦分量和余弦分量相乘,从而提取作为乘法结果的直流分量的每个幅度信息。当以这种方法利用在每个离散频率上的成对的正弦和余弦分量的幅度信息的时候,所得到的编码音频数据就同时包含了相位信息。以上所述的第二周期不需要等于是数字音频数据的采样周期的第一周期,并且该第二周期是在解码方的再现周期的基准周期。在本专利技术中,如上所述,编码方被配置成在一个频率上提取正弦分量的幅度信息和余弦分量的幅度信息两者,而解码方被配置成通过使用这些幅度信息项产生数字音频数据;因此,在频率上传输相位信息并获得具有较好清晰度的声音质量也是可行的。即,编码方不必按过去要求执行截断(cut out)数字音频数据波形的处理,从而使声音的连续性得以保持;并且解码方被配置成无需截断波形单元的处理,使得在再现速度不改变的情况下,当然也在再现速度被改变的情况下,保证了波形的连续性,从而获得极好的清晰度和音质。但是,由于人类听觉在高频域几乎不能区分相位,较少需要在高频域也传输相位信息,并且仅通过幅度信息就可以保证其中再现的音频有足够清晰度。因此,根据本专利技术的数字音频数据的编码方法可以被安排成对于选自离散频率的一个或多个频率,特别是对于较少需要相位信息的高频,计算在所选择的每个频率上的一和分量的平方根,其中该和分量作为彼此成对的正弦分量和余弦分量的相应幅度信息项的平方和而给出,并且用由这些幅度信息对所获得的和分量的平方根替换对应于所选择频率的幅度信息对。这种安排实现了与近年来经常使用的MPEG的数据压缩率处于可比水平的数据压缩率。根据本专利技术的数字音频数据的编码方法还可以被安排成考虑到人类听觉的特性削去无意义的幅度信息,从而提高数据压缩率。一个例子是有一种方法有意削去不太可能为人类感知的数据,例如频率掩蔽(frequency masking)或者时间掩蔽(time masking);例如,一种有可能的安排是在帧数据中的整个幅度信息串是由对应于相应离散频率的正弦和余弦分量的幅度信息对组成的情况下,在和分量的平方根之间或者之中进行比较,其中该和分量(每个和分量是一个正弦分量的幅度信息项和一个余弦分量的幅度信息项的平方和)具有两个或更多个彼此靠近的幅度信息对,且在经过这样比较的幅度信息对中,除了具有和分量的最大平方根的幅度信息对之外,从帧数据中消去其它幅度信息对。在帧数据中的幅度信息串的一部分由不包含相位信息(该信息由和分量的平方根组成并在下文中称之为平方根信息)的幅度信息组成的情况下,也可能采用这样一种配置其中在两个或更多个彼此靠近的平方根信息条之间或者之中进行比较,并且在经过比较的这些平方根信息条中,除了最大平方根信息之外,消去其中的其它平方根信息条,这与上述相邻幅度信息对(全部包括相位信息)的情况恰好相同。以上所述的任一种配置均可显著提高数据压缩率。音频传输系统近来普遍使用因特网等等而增加了将所传输的音频数据(数字信息,主要包括人类语音,诸如新闻节目、讨论会、歌曲、广播剧、语言节目等等)先行存储的机会,上述音频数据系存储于诸如硬盘和半导体存储器的记录介质中,并且尔后由此再现所传输的音频数据。尤其是,老年性耳聋患者包括一类难于听取高讲话速度的人。在将语言作为学习目标的外语学习过程中,也存在降低讲话速度的强烈需要。在如上所述的社交情形之下,如果实现数字内容的传输,而对该数字内容应用根据本本文档来自技高网
...

【技术保护点】
一种数字音频数据的编码方法,包括以下步骤:在以第一周期采样的数字音频数据的频域中设定以预先确定的间距分隔开的离散频率;通过使用对应于所设定的每个所述离散频率的彼此成对的正弦分量和余弦分量,将各所述分量数字化,在每个第二周期上 从所述数字音频数据中提取所述正弦分量和余弦分量对的幅度信息项;和作为编码音频数据的一部分,依次产生帧数据,该帧数据包括对应于相应的所述离散频率的正弦和余弦分量的幅度信息项对。

【技术特征摘要】

【专利技术属性】
技术研发人员:关口博司
申请(专利权)人:卡纳斯数据株式会社宾得株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利