音质转换装置及音质转换方法制造方法及图纸

技术编号:4891605 阅读:197 留言:0更新日期:2012-04-11 18:40
一种音质转换装置,利用与输入声音对应的信息来转换输入声音的音质,包括:目标元音声道信息保持部(101),按每个元音来保持目标元音声道信息,所述目标元音声道信息是表示成为目标的音质的元音的声道信息;元音转换部(103),接受被付与了输入声音所对应的音素及音素的时间长度信息的声道信息、即附带音素边界信息的声道信息,将所述附带音素边界信息的声道信息所包含的元音的声道信息的时间变化以第一函数进行近似,将与该元音相同的元音的所述目标元音声道信息保持部(101)所保持的声道信息的时间变化以第二函数进行近似,通过结合所述第一函数和所述第二函数从而求出第三函数,并由所述第三函数生成转换后的元音的声道信息;以及合成部(107),利用由所述元音转换部(103)转换后的元音的声道信息,合成声音。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及转换声音的音质的,尤 其涉及将输入声音的音质转换为作为目标的讲话者的声音的音质的音 质转换装置及音质转换方法。
技术介绍
近几年,随着声音合成技术的发展,已经能够制作出极高音质的 合成音。但是,以往的合成音的用途主要以播音员的风格朗读新闻等用途 为中心。另一方面,在移动电话服务等领域,提供使用名人的声音信息来 代替铃声之类的服务等,有特征的声音(个人再现性高的合成音,以 及女高中生腔调或者关西方言腔调等具有特征性的韵律和音质的合成 音)作为一个内容开始流通。为了增加这样的人际交流中的乐趣,可 以想像对于制作给对方听的特征性的声音的要求今后会增高。再者,作为合成音的方法,大致分为以下两种。即,从预先准备好的声音单元DB(数据库)中选择适当的声音单元,并通过将其进行连 接来合成音的波形连接型声音合成方法,和对声音进行分析,以分析 后的参数为基础来合成声音的分析合成型声音合成方法。如果考虑使上述合成音的音质进行各种各样的变化,则在波形连 接型声音合成方法中,需要尽量准备必要的声音单元DB,并切换声音 单元DB,同时需要对声音单元进行连接。因此,为了制作各种各样音 质的合成音,需要庞大的费用。9另一方面,在分析合成型声音合成方法中,通过使分析后的声音 参数进行变形,能够转换合成音的音质。作为参数的变形方法,存在 使用作为同样的讲话内容的不同的两个讲话进行转换的方法。专利文献1表示使用神经网络等学习模式的分析合成型声音合成 方法的一个例子。图1是表示利用专利文献1的付与感情方法的声音处理系统的构 成的图。此图所示的声音处理系统包括声分析部2、频谱的DP(Dynamic Programming:动态编程)匹配部4、各个音素的时间长度伸縮部6、 神经网络部8、依据规则的合成参数生成部、时间长度伸縮部、声音合 成系统部。声音处理系统在通过神经网络部8进行用于将无感情的声 音的声特征参数转换成有感情的声音的声特征参数的学习之后,使用 学习完毕的该神经网络部8,将感情付与无感情的声音。频谱的DP匹配部4对声分析部2所抽取的特征参数之中的、无 感情的声音的频谱的特征参数和有感情的声音的频谱的特征参数之间 的相似度进行每时每刻的调查,通过取得每个同样的音素的时间上的 对应,从而求出针对无感情声音的感情声音的每个音素的时间上的伸 縮率。各个音素的时间长度伸縮部6按照频谱的DP匹配部4所取得的 每个音素的时间上的伸縮率,将感情声音的特征参数的时间序列在时 间上进行归一化,从而使其适合无感情声音。神经网络部8在学习时,每时每刻都对给予输入层的无感情声音 的声特征参数和给予输出层的感情声音的声特征参数的差别进行学 习。并且,神经网络部8在感情的付与时,利用在学习时所决定的网 络内部的加权系数,每时每刻进行由给予输入层的无感情声音的声特 征参数推算感情声音的声响特征参数的计算。如上所述的,是根据学 习模式进行从无感情声音到感情声音的转换。10但是,专利文献1的技术需要记录预先决定了的与用于学习的文 章同样的内容为目标的有感情的发音。因此,在将专利文献l的技术 应用于转换讲话者的情况下,需要使作为目标的讲话者将预先决定了 的用于学习的文章全部念出来。所以,存在对目标讲话者增加负担的 问题。作为不必将预先决定了的用于学习的文章念出来也可以的方法,具有专利文献2中记述的方法。专利文献2中记述的方法是通过文本 合成装置合成同样的讲话内容,并根据合成后的声音与目标声音的差 分,来编写声音频谱形状的变换函数的方法。图2是专利文献2的音质转换装置的框图。目标讲话者的声音信号被输入目标讲话者声音输入部lla,声音 识别部19对被输入到目标讲话者声音输入部lla的目标讲话者声音 进行声音识别,将目标讲话者声音的发音内容与音标一起输出到音标 序列输入部12a。声音合成部14按照被输入的音标序列,利用声音合 成用数据存储部13内的声音合成用数据库来制作合成音。目标讲话者 声音特征参数抽取部15对目标讲话者声音进行分析从而抽取特征参 数,合成音特征参数抽取部16对制作成的合成音进行分析从而抽取特 征参数。变换函数生成部17利用抽取了的双方的特征参数,生成将合 成音的频谱形状转换为目标讲话者声音的频谱形状的函数。音质转换 部18根据生成了的变换函数,进行输入信号的音质转换。如上所述,因为将目标讲话者声音的声音识别结果作为用于合成 音生成的音标序列而输入声音合成部14,所以用户不需要以文本等输 入音标序列,从而能够谋求处理的自动化。并且,作为以较少的存储量即能够生成多个音质的声音合成装置, 存在专利文献3的声音合成装置。专利文献3所涉及的声音合成装置 包含声音单元存储部、多个元音单元存储部、多个基频存储部。声 音单元存储部保持包含元音的过渡部分的子音单元。各个元音单元存 储部存储讲话者一个人的元音单元。多个基频存储部分别存储成为元ii音单元的基础的讲话者的基频。声音合成装置从多个元音单元存储部中读出被指定的讲话者的元 音单元,并通过与存储在声音单元存储部中的预先决定了的子音单元 连接,来合成声音。因此,能够将输入声音的音质转换为被指定的讲 话者的音质。专利文献1:(日本)特开平7—72900号公报(第3—8页,图1)专利文献2:(日本)特开2005 — 266349号公报(第9—10页, 图2)专利文献3:(日本)特开平5 — 257494号公报在专利文献2的技术中,通过声音识别部19识别目标讲话者的讲话内容,从而生成音标序列,利用保持在标准的声音合成用数据存储部13的数据,声音合成部14合成合成音。但是,普遍存在无法避免声音识别部19产生识别错误的问题。并且无法避免给在变换函数生成部17编写的变换函数的性能带来巨大的影响。而且,通过变换函数生成部17编写的变换函数是,从声音合成用数据存储部13所保持的声音的音质转换为目标讲话者的音质的变换函数。因此,存在通过音质转换部18转换的被转换输入信号,与声音合成用数据存储部13的音质相同,或者在不是极其相似的音质的声音信号的情况下,转换后输 出信号不一定与目标讲话者的音质一致的问题。而且,专利文献3所涉及的声音合成装置,通过切换目标元音的 一帧的音质特征,来进行输入声音的音质转换。因此,只能够将输入 声音的音质转换为预先登记了的讲话者的音质,而不能够生成介于多 个讲话者的音质的中间的音质的声音。并且,由于仅使用一帧的音质 特征来进行音质的转换,所以存在连续发音中的自然劣化大的问题。进一步,在专利文献3所涉及的声音合成装置中,在通过元音单 元的置换而使元音特征被大为转换的情况下,存在预先被唯一决定的 子音特征和转换后的元音特征之间的差变大的情况。在此情况下,为了使两者的差变小,即使在元音特征及子音特征之间进行了插值,也 存在合成音的自然性大为劣化之类的问题。
技术实现思路
本专利技术就是为了解决上述以往的问题,其目的在于,提供一种能 够实现对被转换输入信号没有限制的音质转换的音质转换装置及音质 转换方法。并且,本专利技术的目的在于,提供一种不受目标讲话者的讲话的识 别错误的影响,就能够对被转换输入信号进行音质转换的音质转换装 置及音质装换方法。本专利技术的某个局面所涉及的音质转换装置,利用与输入声音对应 的信息本文档来自技高网
...

【技术保护点】
一种音质转换装置,利用与输入声音对应的信息来转换输入声音的音质,包括: 目标元音声道信息保持部,按每个元音来保持目标元音声道信息,所述目标元音声道信息是表示成为目标的音质的元音的声道信息; 元音转换部,接受被付与了输入声音所对应 的音素及音素的时间长度信息的声道信息、即附带音素边界信息的声道信息,将所述附带音素边界信息的声道信息所包含的元音的声道信息的时间变化以第一函数进行近似,将与该元音相同的元音的所述目标元音声道信息保持部所保持的声道信息的时间变化以第二函数进行近似,通过结合所述第一函数和所述第二函数从而求出第三函数,并由所述第三函数生成转换后的元音的声道信息;以及 合成部,利用由所述元音转换部转换后的元音的声道信息,合成声音。

【技术特征摘要】
【国外来华专利技术】JP 2007-5-14 128555/20071、一种音质转换装置,利用与输入声音对应的信息来转换输入声音的音质,包括目标元音声道信息保持部,按每个元音来保持目标元音声道信息,所述目标元音声道信息是表示成为目标的音质的元音的声道信息;元音转换部,接受被付与了输入声音所对应的音素及音素的时间长度信息的声道信息、即附带音素边界信息的声道信息,将所述附带音素边界信息的声道信息所包含的元音的声道信息的时间变化以第一函数进行近似,将与该元音相同的元音的所述目标元音声道信息保持部所保持的声道信息的时间变化以第二函数进行近似,通过结合所述第一函数和所述第二函数从而求出第三函数,并由所述第三函数生成转换后的元音的声道信息;以及合成部,利用由所述元音转换部转换后的元音的声道信息,合成声音。2、 如权利要求1所述的音质转换装置,还包括 子音声道信息导出部,接受所述附带音素边界信息的声道信息,并按该附带音素边界信息的声道信息所包含的每个子音的声道信息, 从包含所述成为目标的音质以外的音质的子音的声道信息之中,导出 具有与所述附带音素边界信息的声道信息所包含的子音相同的音素的 子音的声道信息,所述合成部利用由所述元音转换部转换后的元音的声道信息,和 在所述子音声道信息导出部导出的子音的声道信息,合成声音。3、 如权利要求2所述的音质转换装置, 所述子音声道信息导出部具有子音声道信息保持部,按每个子音保持从多个讲话者的声音抽取 了的声道信息;以及子音选择部,接受所述附带音素边界信息的声道信息,并按该附 带音素边界信息的声道信息所包含的每个子音的声道信息,将适合于 位于该子音之前或之后的元音区间的由所述元音转换部转换后的元音 的声道信息的、具有与该子音相同的音素的子音的声道信息,从所述 子音声道信息保持部所保持的子音的声道信息中选择。4、 如权利要求3所述的音质转换装置,所述子音选择部,接受所述附带音素边界信息的声道信息,依据 该附带音素边界信息的声道信息所包含的每个子音的声道信息的数值 与位于该子音之前或之后的元音区间的、由所述元音转换部转换后的 元音的声道信息的数值的连续性,从所述子音声道信息保持部所保持 的子音的声道信息中选择具有与该子音相同的音素的子音的声道信 息。5、 如权利要求3所述的音质转换装置,还包括子音变形部,将在所述子音选择部选择的子音的声道信息 进行变形,以使该子音的声道信息的数值与位于该子音之后的元音区 间的、由所述元音转换部转换后的元音的声道信息的数值的连续性变 好。6、 如权利要求1所述的音质转换装置,还包括转换比率输入部,输入表示向成为目标的音质转换的程度 的转换比率,所述元音转换部接受被付与了输入声音所对应的音素及音素的时 间长度信息的声道信息、即附带音素边界信息的声道信息和在所述转 换比率输入部输入的所述转换比率,将所述附带音素边界信息的声道信息所包含的元音的声道信息的时间变化以第一函数进行近似,将与 该元音相同的元音的所述目标元音声道信息保持部所保持的声道信息 的时间变化以第二函数进行近似,通过以所述转换比率结合所述第一 函数和所述第二函数从而求出第三函数,并由所述第三函数生成转换 后的元音的声道信息。7、 如权利要求6所述的音质转换装置,所述元音转换部,以次数为单位将所述附带音素边界信息的声道 信息所包含的元音的声道信息以第一多项式进行近似,以次数为单位 将与该元音相同的元音的所述目标元音声道信息保持部所保持的所述 目标元音声道信息以第二多项式进行近似,并以次数为单位,通过以 所述转换比率混合所述第一多项式的系数和所述第二多项式的系数, 从而求出第三多项式的各个次数的系数,将转换后的元音的声道信息 以所述第三多项式进行近似。8、 如权利要求1所述的音质转换装置,所述元音转换部进一步,将包含作为第一元音的声道信息和第二 元音的声道信息之间在时间上的边界的元音边界的规定时间设为过渡 区间,对该过渡区间中所包含的所述第一元音的声道信息和所述第二 元音的声道信息进行插值,以使在所述元音边界中所述第一元音的声 道信息和所述第二元音的声道信息被连续地连接。9、 如权利要求8所述的音质转换装置,所述规定时间被设定为,位于所述元音边界的前后的、所述第一 元音和所述第二元音的持续时间长度越长,所述规定时间就越长。10、 如权利要求1所述的音质转换装置, 所述声道信息是PARCOR系数或者声道声管模型的反射系数。11、 如权利要求10所述的音质转换装置,所述PARCOR系数或者声道声管模型的反射系数通过对输入声 音进行LPC分析,并根据分析出的全极点模型的多项式被算出。12、 如权利要求10所述的音质转换装置,所述PARCOR系数或者声道声管模型的反射系数通过对输入声 音进行ARX分析,并根据分析后的全极点模型的多项式被算出。13、 ...

【专利技术属性】
技术研发人员:广濑良文釜井孝浩加藤弓子
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1