【技术实现步骤摘要】
本专利技术涉及对输入的语音数据的不清楚部分进行校正并输出的语音 增强设备、语音记录设备、语音增强程序、语音记录程序、语音增强方 法和语音记录方法,更具体地涉及这样的语音增强设备、语音记录设备、 语音增强程序、语音记录程序、语音增强方法和语音记录方法,它们可 自动地检测并自动地校正与爆破音(例如是否存在爆破音部分,在爆破 音部分之后持续的送气音部分的音素长度)有关的缺陷部分,或者与摩 擦音的幅度变化有关的缺陷部分。
技术介绍
可以容易地复制包括含有人声的记录语音的语音数据。为此,语音 数据通常可多次重新使用。尤其是,因为例如在互联网上播客(podcasting)期间可以容易地重新分发包括数字记录语音的语音数据, 所以语音数据可以被频繁地重新使用。但是,人声并不总是清楚地发出。例如,在人声中,爆破音或摩擦 音的音量比所包括的其它音节或唇音更高,因而极其难以听到人声。另 外,因为可容易地复制并重新分发语音数据,所以由于向下釆样以及重 复地进行编码和解码而使得辅音部分变得不清楚。由于辅音部分变得不 清楚,而使得非常难以听到再现的语音数据。但是,即使语音数据中的辅音部分不清楚或者语音数据包括唇音, 由于重新记录需要进一步的人工,所以语音数据还是以记录语音原样分 发。另外,即使由于向下采样或者重复地编码和解码而使得辅音部分变 得不清楚,用户也必须容忍例如由于复制导致的声音质量变差的缺陷。为了再现易于听到的语音数据,提出了各种技术来自动地检测并自 动地校正所记录的语音数据的缺陷部分。例如,在用于增强语音中的辅 音部分的清晰度的技术中,使用低通滤波器去除语音中包含的噪音 ...
【技术保护点】
一种语音增强设备,该语音增强设备对输入的语音数据的不清楚部分进行校正并输出,该语音增强设备包括:波形特征量计算单元,该波形特征量计算单元对于各音素计算所述语音数据的波形特征量,所述语音数据连同将该语音数据划分为音素的音素边界数据一起被输入;校正确定单元,该校正确定单元基于由所述波形特征量计算单元计算的所述波形特征量,对于各音素确定所述语音数据校正的必要性;以及波形校正单元,该波形校正单元通过使用预先存储在音素式波形数据存储单元中的波形数据,对于各音素对由所述校正确定单元确定有校正必要的所述语音数据进行校正。
【技术特征摘要】
1、 一种语音增强设备,该语音增强设备对输入的语音数据的不清楚 部分进行校正并输出,该语音增强设备包括波形特征量计算单元,该波形特征量计算单元对于各音素计算所述 语音数据的波形特征量,所述语音数据连同将该语音数据划分为音素的 音素边界数据一起被输入;校正确定单元,该校正确定单元基于由所述波形特征量计算单元计 算的所述波形特征量,对于各音素确定所述语音数据校正的必要性;以 及波形校正单元,该波形校正单元通过使用预先存储在音素式波形数 据存储单元中的波形数据,对于各音素对由所述校正确定单元确定有校 正必要的所述语音数据进行校正。2、 根据权利要求1所述的语音增强设备,该语音增强设备还包括 浊音/清音边界数据输出单元,该浊音/清音边界数据输出单元确定所述语音数据的浊音/清音的分界,并输出浊音/清音边界数据作为所述音素 边界数据,其中所述波形特征量计算单元对于各音素计算所述语音数据的波形特征 量,所述语音数据连同由所述浊音/清音边界数据输出单元输出的所述浊 音/清音边界数据一起被输入。3、 根据权利要求1所述的语音增强设备,该语音增强设备还包括 音素识别数据输出单元,该音素识别数据输出单元基于所述输入的语音数据以及通过对所述语音数据的文本数据进行语言处理输出的音素 串而向所述语音数据分配音素识别数据,确定所述音素识别数据的边界, 并输出所述音素识别数据的边界数据作为所述音素边界数据,其中所述波形特征量计算单元对于各音素计算所述语音数据的波形特征 量,所述语音数据连同由所述音素识别数据输出单元输出的所述音素识 别数据的所述边界数据一起被输入。4、 根据权利要求2所述的语音增强设备,其中,所述波形特征量计算单元包括语音数据划分单元,该语音数据划分单元基于所述音素边界数据将 所述输入的语音数据划分为音素,幅度变化测量单元,该幅度变化测量单元基于由所述语音数据划分 单元划分的音素而测量幅度值、幅度变化率以及是否存在所述音素的周 期性波形, 爆破音部分/送气音部分检测单元,该爆破音部分/送气音部分检测单 元基于由所述幅度变化测量单元测量的幅度值和幅度变化率以及由所述 语音数据划分单元划分的所述语音数据,而检测所述音素的爆破音部分 和送气音部分,音素分类单元,该音素分类单元基于所述爆破音部分/送气音部分检 测单元的检测结果、以及由所述幅度变化测量单元测量的幅度值、幅度 变化率和是否存在周期性波形而对所述音素的音素类型进行分类,以及音素式特征量计算单元,该音素式特征量计算单元对于由所述音素 分类单元分类的各音素而计算所述特征量。5、根据权利要求3所述的语音增强设备,其中,所述波形特征量计 算单元包括语音数据划分单元,该语音数据划分单元基于所述音素边界数据将 所述输入的语音数据划分为音素,幅度变化测量单元,该幅度变化测量单元基于由所述语音数据划分 单元划分的音素而测量幅度值、幅度变化率以及是否存在所述音素的周 期性波形,爆破音部分/送气音部分检测单元,该爆破音部分/送气音部分检测单 元基于由所述幅度变化测量单元测量的幅度值和幅度变化率以及由所述 语音数据划分单元划分的所述语音数据,而检测所述音素的爆破音部分 和送气音部分,音素分类单元,该音素分类单元基于所述爆破音部分/送气音部分检 测单元的检测结果、以及由所述幅度变化测量单元测量的幅度值、幅度 变化率和是否存在周期性波形而对所述音素的音素类型进行分类,以及音素式特征量计算单元,该音素式特征量计算单元对于由所述音素 分类单元分类的各音素计算所述特征量。6、 根据权利要求4所述的语音增强设备,其中,所述音素式特征量 计算单元计算下列中的至少一个作为所述特征量由所述幅度变化测量 单元测量的幅度值、幅度变化率和是否存在周期性波形,由所述爆破音 部分/送气音部分检测单元检测的是否存在所述音素的爆破音部分、所述 爆破音部分的长度、是否存在所述爆破音部分之后持续的送气音部分和 所述送气音部分的长度,以及在由所述音素分类单元分类的所述音素之 前和之后的音素的音素类型。7、 根据权利要求5所述的语音增强设备,其中,所述音素式特征量 计算单元计算下列中的至少一个作为所述特征量由所述幅度变化测量 单元测量的幅度值、幅度变化率和是否存在周期性波形,由所述爆破音 部分/送气音部分检测单元检测的是否存在所述音素的爆破音部分、所述 爆破音部分的长度、是否存在所述爆破音部分之后持续的送气音部分和 所述送气音部分的长度,以及在由所述音素分类单元分类的所述音素之 前和之后的音素的音素类型。8、 根据权利要求4所述的语音增强设备,其中,所述校正确定单元根据由所述音素分类单元分类的音素类型而对于各音素确定是否有必要 校正所述语音数据。9、 根据权利要求5所述的语音增强设备,其中,所述校正确定单元根据由所述音素分类单元分类的音素类型而对于各音素确定是否有必要 校正所述语音数据。10、 根据权利要求4所述的语音增强设备,其中,所述波形特征量计算单元还包括音素环境检测单元,该音素环境检测单元检测在由所述语音数据划 分单元划分的所述音素之前和之后的音素中的、发音/不发音的差异和浊 音/清音的差异,并且其中所述校正确定单元基于所述音素环境检测单元的检测结果以及由所 述波形特征量计算单元计算的所述波形特征量,而对于各音素确定所述语音数据的校正的必要性。11、 根据权利要求5所述的语音增强设备,其中,所述波形特征量 计算单元还包括音素环境检测单元,该音素环境检测单元检测在由所述语音数据划 分单元划分的所述音素之前和之后的音素中的、发音/不发音的差异和浊 音/清音的差异,并且其中所述校正确定单元基于所述音素环境检测单元的检测结果以及由所 述波形特征量计算单元计算的所述波形特征量,而对于各音素确定所述 语音数据的校正的必要性。12、 根据权利要求1所述的语音增强设备,该语音增强设备还包括 输出语音数据合成器,该输出语音数据合成器基于所述音素边界数据和 所述校正确定单元的确定结果而将所述输入的语音数据与经所述波形校 正单元校正的各音素的所述语音数据合成,并输出该合成的语音数据。13、 一种语音记录设备,该语音记录设备将输入的语音数据记录在 音素式波形数据存储单元中,该语音记录设备包括音素识别数据输出单元,该音素识别数据输出单元基于所述输入的 语音数据以及通过对所述语音数据的文本数据进行语言处理输出的音素 串而向所述语音数据分配音素识别数据,确定所述音素识别数据的边界, 并输出所述音素识别数据的边界数据作为所述音素边界数据;波形特征量计算单元,该波形特征量计算单元对于各音素计算所述 语音数据的波形特征量,所述语音数据连同由所述音素识别数据输出单元输出的所述音素识别数据的所述边界数据一起被输入;条件充分性确定单元,该条件充分性确定单元基于由所述波形特征 量计算单元计算的所述波形特征量而对于各音素确定所述语音数据是否满足预定条件;以及音素式波形数据记录单元,该音素式波形数据记录单元基于所述条 件充分性确定单元的确定结果而将被确定为满足所述预定条件的各音素 的语音数据记录在所述音素式波形数据存储单元中。14、 一种计算机可读记...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。