语音增强设备和语音记录设备及方法、计算机可读记录介质技术

技术编号:3044855 阅读:175 留言:0更新日期:2012-04-11 18:40
一种语音增强设备,该语音增强设备对输入的语音数据的不清楚部分进行校正并输出,该语音增强设备包括:    波形特征量计算单元,该波形特征量计算单元对于各音素计算所述语音数据的波形特征量,所述语音数据连同将该语音数据划分为音素的音素边界数据一起被输入;    校正确定单元,该校正确定单元基于由所述波形特征量计算单元计算的所述波形特征量,对于各音素确定所述语音数据校正的必要性;以及    波形校正单元,该波形校正单元通过使用预先存储在音素式波形数据存储单元中的波形数据,对于各音素对由所述校正确定单元确定有校正必要的所述语音数据进行校正。

【技术实现步骤摘要】

本专利技术涉及对输入的语音数据的不清楚部分进行校正并输出的语音 增强设备、语音记录设备、语音增强程序、语音记录程序、语音增强方 法和语音记录方法,更具体地涉及这样的语音增强设备、语音记录设备、 语音增强程序、语音记录程序、语音增强方法和语音记录方法,它们可 自动地检测并自动地校正与爆破音(例如是否存在爆破音部分,在爆破 音部分之后持续的送气音部分的音素长度)有关的缺陷部分,或者与摩 擦音的幅度变化有关的缺陷部分。
技术介绍
可以容易地复制包括含有人声的记录语音的语音数据。为此,语音 数据通常可多次重新使用。尤其是,因为例如在互联网上播客(podcasting)期间可以容易地重新分发包括数字记录语音的语音数据, 所以语音数据可以被频繁地重新使用。但是,人声并不总是清楚地发出。例如,在人声中,爆破音或摩擦 音的音量比所包括的其它音节或唇音更高,因而极其难以听到人声。另 外,因为可容易地复制并重新分发语音数据,所以由于向下釆样以及重 复地进行编码和解码而使得辅音部分变得不清楚。由于辅音部分变得不 清楚,而使得非常难以听到再现的语音数据。但是,即使语音数据中的辅音部分不清楚或者语音数据包括唇音, 由于重新记录需要进一步的人工,所以语音数据还是以记录语音原样分 发。另外,即使由于向下采样或者重复地编码和解码而使得辅音部分变 得不清楚,用户也必须容忍例如由于复制导致的声音质量变差的缺陷。为了再现易于听到的语音数据,提出了各种技术来自动地检测并自 动地校正所记录的语音数据的缺陷部分。例如,在用于增强语音中的辅 音部分的清晰度的技术中,使用低通滤波器去除语音中包含的噪音频率 分量,因而使得语音频带易于听到。在日本专利申请特开平8-275087号公报中公开的、作为增强辅音部 分的方法的辅音增强方法中,通过对倒谱中的控制函数求巻积以縮短倒 谱基音从而增强由倒谱基音检测出的辅音部分。基于音位数据,在日本专利申请特开2004-4952号公报中公开的语 音合成器对辅音部分进行频带增强,或者对辅音或辅音及后续元音的延 留音进行幅度增强处理。另外,在日本专利申请特开2003-345373号公报 中公开的语音合成器包括滤波器,该滤波器使用表示清辅音特性的频谱 特性作为传递函数。该语音合成器对音素的频谱分布进行滤波处理以增 强频谱分布的特性。但是,由于与爆破音有关的缺陷(例如,是否存在爆破音部分,在 爆破音部分之后持续的送气音部分的音素长度)或者与摩擦音的幅度变 化有关的缺陷,辅音或清元音可能包括语音清晰度较低的声音或不悦耳 的声音。为此,尽管以专利文献1至3为代表的传统技术可用于检测并 校正辅音或清元音,但是该传统技术不能用于进一步划分音素以检测并 校正与爆破音有关的缺陷部分或者与摩擦音的幅度变化有关的缺陷部 分。另外,如果原始语音自身包括缺陷,那么仅增强原始语音的辅音部 分也会增强所述缺陷部分,从而更难以听到语音。本专利技术的目的是更容易地解决上述缺陷,并提供这样的语音增强设 备、语音记录设备、语音增强程序、语音记录程序、语音增强方法和语 音记录方法,它们可自动地检测并自动地校正再现语音中的与爆破音(例 如是否存在爆破音部分,在爆破音部分之后持续的送气音部分的音素长 度)有关的缺陷部分,或者与摩擦音的幅度变化有关的缺陷部分。
技术实现思路
本专利技术的目的是至少部分解决传统技术中的问题。 根据本专利技术的一个方面,对输入的语音数据的不清楚部分进行校正并输出的语音增强设备包括波形特征量计算单元,该波形特征量计算 单元对于各音素计算语音数据的波形特征量,所述语音数据连同将该语 音数据划分为音素的音素边界数据一起被输入;校正确定单元,该校正 确定单元基于由所述波形特征量计算单元计算的波形特征量,对于各音 素确定语音数据校正的必要性;以及波形校正单元,该波形校正单元通过使用预先存储在音素式波形数据(phonemewise-waveform-data)存储 单元中的波形数据,对于各音素对由所述校正确定单元确定有校正必要 的语音数据进行校正。根据本专利技术的另一方面,用于将输入的语音数据记录在音素式波形 数据存储单元中的语音记录设备包括音素识别数据输出单元,该音素 识别数据输出单元基于输入的语音数据以及通过对语音数据的文本数据 进行语言处理输出的音素串而向语音数据分配音素识别数据,确定所述 音素识别数据的边界,并输出所述音素识别数据的边界数据作为所述音 素边界数据;波形特征量计算单元,该波形特征量计算单元对于各音素 计算语音数据的波形特征量,所述语音数据连同由所述音素识别数据输 出单元输出的音素识别数据的边界数据一起被输入;条件充分性确定单元,该条件充分性确定单元基于由所述波形特征量计算单元计算的波形 特征量而对于各音素确定所述语音数据是否满足预定条件;以及音素波 形数据记录单元,该音素波形数据记录单元基于所述条件充分性确定单 元的确定而将被确定为满足所述预定条件的各音素的语音数据记录在所 述音素式波形数据存储单元中。根据本专利技术的又一方面,计算机可读记录介质中存储有使得计算机 对输入的语音数据的不清楚部分进行校正并输出的语音增强程序,该语 音增强程序使得所述计算机执行下列步骤对于各音素计算语音数据的 波形特征量,所述语音数据连同将该语音数据划分为音素的音素边界数 据一起被输入;基于在波形特征量的计算步骤中计算的波形特征量,对 于各音素确定语音数据校正的必要性;以及通过使用预先存储在音素式 波形数据存储单元中的波形数据,对于各音素对在所述确定步骤中确定 有校正必要的语音数据进行校正。根据本专利技术的再一方面,计算机可读记录介质中存储有使得计算机 将输入的语音数据记录在音素式波形数据存储单元中的语音记录程序, 该语音记录程序使得所述计算机执行下列步骤基于输入的语音数据以 及通过对所述语音数据的文本数据进行语言处理输出的音素串而向所述 语音数据分配音素识别数据,确定所述音素识别数据的边界,并输出所 述音素识别数据的边界数据作为所述音素边界数据;对于各音素计算所 述语音数据的波形特征量,所述语音数据连同在所述输出步骤中输出的 音素识别数据的边界数据一起被输入;基于在所述计算步骤中计算的波 形特征量而对于各音素确定所述语音数据是否满足预定条件;以及基于 所述确定步骤中的确定而将被确定为满足所述预定条件的各音素的语音 数据记录在所述音素式波形数据存储单元中。根据本专利技术的又一方面,根据本专利技术的对输入的语音数据的不清楚 部分进行校正并输出的语音增强方法包括下列步骤对于各音素计算语 音数据的波形特征量,所述语音数据连同将该语音数据划分为音素的音 素边界数据一起被输入;基于在所述计算步骤中计算的波形特征量,对 于各音素确定所述语音数据校正的必要性;以及通过使用预先存储在音 素式波形数据存储单元中的波形数据,对于各音素对在所述确定步骤中 确定有校正必要的语音数据进行校正。根据本专利技术的再一方面,根据本专利技术的对输入的语音数据的不清楚 部分进行校正并输出的语音记录方法包括下列步骤基于输入的语音数 据以及通过对所述语音数据的文本数据进行语言处理输出的音素串而向 所述语音数据分配音素识别数据,确定所述音素识别数据的边界,并输 出所述音素识别数据的边界数据作为所述音素边界数据;对于各音素本文档来自技高网
...

【技术保护点】
一种语音增强设备,该语音增强设备对输入的语音数据的不清楚部分进行校正并输出,该语音增强设备包括:波形特征量计算单元,该波形特征量计算单元对于各音素计算所述语音数据的波形特征量,所述语音数据连同将该语音数据划分为音素的音素边界数据一起被输入;校正确定单元,该校正确定单元基于由所述波形特征量计算单元计算的所述波形特征量,对于各音素确定所述语音数据校正的必要性;以及波形校正单元,该波形校正单元通过使用预先存储在音素式波形数据存储单元中的波形数据,对于各音素对由所述校正确定单元确定有校正必要的所述语音数据进行校正。

【技术特征摘要】
1、 一种语音增强设备,该语音增强设备对输入的语音数据的不清楚 部分进行校正并输出,该语音增强设备包括波形特征量计算单元,该波形特征量计算单元对于各音素计算所述 语音数据的波形特征量,所述语音数据连同将该语音数据划分为音素的 音素边界数据一起被输入;校正确定单元,该校正确定单元基于由所述波形特征量计算单元计 算的所述波形特征量,对于各音素确定所述语音数据校正的必要性;以 及波形校正单元,该波形校正单元通过使用预先存储在音素式波形数 据存储单元中的波形数据,对于各音素对由所述校正确定单元确定有校 正必要的所述语音数据进行校正。2、 根据权利要求1所述的语音增强设备,该语音增强设备还包括 浊音/清音边界数据输出单元,该浊音/清音边界数据输出单元确定所述语音数据的浊音/清音的分界,并输出浊音/清音边界数据作为所述音素 边界数据,其中所述波形特征量计算单元对于各音素计算所述语音数据的波形特征 量,所述语音数据连同由所述浊音/清音边界数据输出单元输出的所述浊 音/清音边界数据一起被输入。3、 根据权利要求1所述的语音增强设备,该语音增强设备还包括 音素识别数据输出单元,该音素识别数据输出单元基于所述输入的语音数据以及通过对所述语音数据的文本数据进行语言处理输出的音素 串而向所述语音数据分配音素识别数据,确定所述音素识别数据的边界, 并输出所述音素识别数据的边界数据作为所述音素边界数据,其中所述波形特征量计算单元对于各音素计算所述语音数据的波形特征 量,所述语音数据连同由所述音素识别数据输出单元输出的所述音素识 别数据的所述边界数据一起被输入。4、 根据权利要求2所述的语音增强设备,其中,所述波形特征量计算单元包括语音数据划分单元,该语音数据划分单元基于所述音素边界数据将 所述输入的语音数据划分为音素,幅度变化测量单元,该幅度变化测量单元基于由所述语音数据划分 单元划分的音素而测量幅度值、幅度变化率以及是否存在所述音素的周 期性波形, 爆破音部分/送气音部分检测单元,该爆破音部分/送气音部分检测单 元基于由所述幅度变化测量单元测量的幅度值和幅度变化率以及由所述 语音数据划分单元划分的所述语音数据,而检测所述音素的爆破音部分 和送气音部分,音素分类单元,该音素分类单元基于所述爆破音部分/送气音部分检 测单元的检测结果、以及由所述幅度变化测量单元测量的幅度值、幅度 变化率和是否存在周期性波形而对所述音素的音素类型进行分类,以及音素式特征量计算单元,该音素式特征量计算单元对于由所述音素 分类单元分类的各音素而计算所述特征量。5、根据权利要求3所述的语音增强设备,其中,所述波形特征量计 算单元包括语音数据划分单元,该语音数据划分单元基于所述音素边界数据将 所述输入的语音数据划分为音素,幅度变化测量单元,该幅度变化测量单元基于由所述语音数据划分 单元划分的音素而测量幅度值、幅度变化率以及是否存在所述音素的周 期性波形,爆破音部分/送气音部分检测单元,该爆破音部分/送气音部分检测单 元基于由所述幅度变化测量单元测量的幅度值和幅度变化率以及由所述 语音数据划分单元划分的所述语音数据,而检测所述音素的爆破音部分 和送气音部分,音素分类单元,该音素分类单元基于所述爆破音部分/送气音部分检 测单元的检测结果、以及由所述幅度变化测量单元测量的幅度值、幅度 变化率和是否存在周期性波形而对所述音素的音素类型进行分类,以及音素式特征量计算单元,该音素式特征量计算单元对于由所述音素 分类单元分类的各音素计算所述特征量。6、 根据权利要求4所述的语音增强设备,其中,所述音素式特征量 计算单元计算下列中的至少一个作为所述特征量由所述幅度变化测量 单元测量的幅度值、幅度变化率和是否存在周期性波形,由所述爆破音 部分/送气音部分检测单元检测的是否存在所述音素的爆破音部分、所述 爆破音部分的长度、是否存在所述爆破音部分之后持续的送气音部分和 所述送气音部分的长度,以及在由所述音素分类单元分类的所述音素之 前和之后的音素的音素类型。7、 根据权利要求5所述的语音增强设备,其中,所述音素式特征量 计算单元计算下列中的至少一个作为所述特征量由所述幅度变化测量 单元测量的幅度值、幅度变化率和是否存在周期性波形,由所述爆破音 部分/送气音部分检测单元检测的是否存在所述音素的爆破音部分、所述 爆破音部分的长度、是否存在所述爆破音部分之后持续的送气音部分和 所述送气音部分的长度,以及在由所述音素分类单元分类的所述音素之 前和之后的音素的音素类型。8、 根据权利要求4所述的语音增强设备,其中,所述校正确定单元根据由所述音素分类单元分类的音素类型而对于各音素确定是否有必要 校正所述语音数据。9、 根据权利要求5所述的语音增强设备,其中,所述校正确定单元根据由所述音素分类单元分类的音素类型而对于各音素确定是否有必要 校正所述语音数据。10、 根据权利要求4所述的语音增强设备,其中,所述波形特征量计算单元还包括音素环境检测单元,该音素环境检测单元检测在由所述语音数据划 分单元划分的所述音素之前和之后的音素中的、发音/不发音的差异和浊 音/清音的差异,并且其中所述校正确定单元基于所述音素环境检测单元的检测结果以及由所 述波形特征量计算单元计算的所述波形特征量,而对于各音素确定所述语音数据的校正的必要性。11、 根据权利要求5所述的语音增强设备,其中,所述波形特征量 计算单元还包括音素环境检测单元,该音素环境检测单元检测在由所述语音数据划 分单元划分的所述音素之前和之后的音素中的、发音/不发音的差异和浊 音/清音的差异,并且其中所述校正确定单元基于所述音素环境检测单元的检测结果以及由所 述波形特征量计算单元计算的所述波形特征量,而对于各音素确定所述 语音数据的校正的必要性。12、 根据权利要求1所述的语音增强设备,该语音增强设备还包括 输出语音数据合成器,该输出语音数据合成器基于所述音素边界数据和 所述校正确定单元的确定结果而将所述输入的语音数据与经所述波形校 正单元校正的各音素的所述语音数据合成,并输出该合成的语音数据。13、 一种语音记录设备,该语音记录设备将输入的语音数据记录在 音素式波形数据存储单元中,该语音记录设备包括音素识别数据输出单元,该音素识别数据输出单元基于所述输入的 语音数据以及通过对所述语音数据的文本数据进行语言处理输出的音素 串而向所述语音数据分配音素识别数据,确定所述音素识别数据的边界, 并输出所述音素识别数据的边界数据作为所述音素边界数据;波形特征量计算单元,该波形特征量计算单元对于各音素计算所述 语音数据的波形特征量,所述语音数据连同由所述音素识别数据输出单元输出的所述音素识别数据的所述边界数据一起被输入;条件充分性确定单元,该条件充分性确定单元基于由所述波形特征 量计算单元计算的所述波形特征量而对于各音素确定所述语音数据是否满足预定条件;以及音素式波形数据记录单元,该音素式波形数据记录单元基于所述条 件充分性确定单元的确定结果而将被确定为满足所述预定条件的各音素 的语音数据记录在所述音素式波形数据存储单元中。14、 一种计算机可读记...

【专利技术属性】
技术研发人员:松本智佳子
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1