音质转换系统技术方案

技术编号:3044192 阅读:470 留言:0更新日期:2012-04-11 18:40
提供可以用较少的学习负担进行音质转换的音质转换学习系统、音质转换系统、音质转换客户服务器系统、以及程序。服务器10的中间转换函数生成部101生成中间转换函数F,目标转换函数生成部102生成目标转换函数G。便携终端20的中间音质转换部211使用转换函数F从原说话者的声音生成中间说话者的声音,目标音质转换部212使用转换函数G将由中间音质转换部211生成的中间说话者的声音转换为目标说话者的声音。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及将原说话者的声音转换为目标说话者的声音 的音质转换学习系统、音质转换系统、音质转换客户服务器系 统、以及程序。
技术介绍
以往,已知有将某说话者的声音转换为另 一个说话者的声 音的音质转换技术(例如,参照专利文献l、非专利文献l)。在图22中表示音质转换处理的基本过程。音质转换处理的 过程由学习过程和转换过程构成。在学习过程中,收录原说话 者以及成为转换目标的目标说话者的声音,并存储学习用声音 数据,根据该学习用声音数据进行学习,由此生成用于将原说 话者的声音转换为目标说话者的声音的转换函数。在转换过程 中,利用在学习过程中生成的转换函数,将原说话者发出的任 意的声音转换为目标说话者的声音。利用计算机进行这些处理。专利文献l:日本特开2002—215198号/>才艮非专利文献1 : Alexander Kain and Michael W. Macon SPECTRAL VOICE CONVERSI ON FOR TEXT-TO-SPEECH SYNTHESIS
技术实现思路
专利技术要解决的问题在这种音质转换技术中,为了将原说话者的声音转换为目 标说话者的声音,需要对原说话者的音质和目标说话者的音质 的组合生成固有的转换函数。因此,在存在多个原说话者以及目标说话者、要生成用于从各个原说话者的声音向各个目标说 话者的声音转换的转换函数的情况下,需要进行原说话者与目 标说话者的组合的数量的学习。例如,如图23所示,存在26个原说话者A、 B..... Z和IO个目标说话者l、 2..... 10,在作成用于将各个原说话者的声音转换为各个目标说话者的声音的转换函数的情况下,需要进 行26个原说话者与10个目标说话者的组合的数量260(-26x10) 的学习来生成转换函数。在要使音质转换实用化并对原说话者 提供音质转换服务的情况下,转换函数的数量随着原说话者以 及目标说话者的数量的增加而增加,因此计算机进行学习以及 转换函数生成的负荷增大。另外,需要用于存储大量生成的转 换函数的大容量的存储装置。另外,作为学习用声音数据,原说话者和目标说话者需要 收录大约50句(将其称为 一 组的声音内容)发声内容相同的文 章。如果,从10个目标说话者收录的声音组为各自不同的声音 内容的情况下,1个原说话者需要收录10种声音组。在假设收录 一组的声音内容所需的时间为30分钟的情况下,l个原说话者收 录学习用声音数据要花费5个小时。并且,在目标说话者的声音为卡通人物、名人的声音、过世人等的情况下,依靠这些人来进行音质转换所需的声音组的 发声的声音收录,在费用上不现实或者不可能实现。本专利技术是为了解决如上所述的现有的问题而完成的,提供 可以用较少的学习负担进行音质转换的音质转换学习系统、音 质转换系统、音质转换客户服务器系统、以及程序。用于解决问题的方案为了解决上述问题,权利要求l所述的专利技术提供一种音质 转换系统,其将原说话者的声音转换为目标说话者的声音,其特征在于,具备音质转换单元,该音质转换单元将原说话者的 声音经由向中间说话者的声音的转换而转换为目标说话者的声音。根据本专利技术,音质转换系统将原说话者的声音经由向中间 说话者的声音的转换而转换为目标说话者的声音,因此在存在 多个原说话者和目标说话者的情况下,只要准备用于将各个原 说话者的声音转换为中间说话者的声音的转换函数、以及用于 将中间说话者的声音转换为各个目标说话者的声音的转换函 数,就可以将各个原说话者的声音转换为各个目标说话者的声 音。因此,与以往那样直接将各个原说话者的声音转换为各个 目标说话者的声音的情况相比,所需的转换函数的数量減少, 因此可以利用以较少的学习负担生成的转换函数进行音质转 换。权利要求2所述的专利技术提供一种音质转换学习系统,其学 习用于将一个以上的原说话者的各自的声音转换为一个以上的 目标说话者的各自的声音的函数,其特征在于,具备中间转 换函数生成单元,其学习并生成用于将上述原说话者的声音转 换为对上述一个以上的各个原说话者共用设置的 一 个中间说话 者的声音的中间转换函数;以及目标转换函数生成单元,其学 习并生成用于将上述中间说话者的声音转换为上述目标说话者 的声音的目标转换函数。根据本专利技术,音质转换学习系统学习并生成用于将一个以 上的原说话者的各自的声音转换为 一 个中间说话者的声音的中 间转换函数、和用于将一个中间说话者的声音转换为一个以上 的目标说话者的各自的声音的目标转换函数,因此在存在多个 原说话者和目标说话者的情况下,与直接将各个原说话者的声 音转换为各个目标说话者的声音的情况相比,应该生成的转换函数的数量减少,可以用较少的负担进行音质转换学习,可以 利用以较少的学习负担生成的中间转换函数以及目标转换函数 将原说话者的声音转换为目标说话者的声音。权利要求3所述的专利技术的特征在于,在权利要求2所述的音质转换学习系统中,上述目标转换函数生成单元作为上述目标 转换函数而生成用于将上述原说话者的声音通过上述中间转换 函数转换后的声音转换为上述目标说话者的声音的函数。根据本专利技术,在进行实际的音质转换时,通过中间转换函 数对原说话者的声音进行转换,利用目标转换函数对其转换后 的声音进行转换,由此生成目标说话者的声音,因此与作为目换为目标说话者的声音的函数的情况相比,音质转换时的音质 的精度更高。权利要求4所述的专利技术的特征在于,在权利要求2或3所述 的音质转换学习系统中,在上述学习中使用的中间说话者的声 音是从用规定的音质输出任意声音内容的声音合成装置输出的 声音。根据本专利技术,将在学习中使用的中间说话者的声音设为从 声音合成装置输出的声音,由此可以容易地从声音合成装置输 出与原说话者、目标说话者的声音内容相同的声音内容,因此 不存在学习时的原说话者、目标说话者的发声内容的限制,从 而便利性更高。权利要求5所述的专利技术的特征在于,在权利要求2至4中的 任一项所述的音质转换学习系统中,在上述学习中使用的原说 话者的声音是从用规定的音质输出任意声音内容的声音合成装 置输出的声音。根据本专利技术,将在学习中使用的原说话者的声音设为从声音合成装置输出的声音,由此可以容易地从声音合成装置输出 与目标说话者的声音内容相同的声音内容,因此不存在学习时 的目标说话者的声音内容的限制,从而便利性更高。例如,在 作为目标说话者的声音而使用在电影中收录的演员的声音的情 况下,即使只收录有限的声音内容,也能够容易地进行学习。权利要求6所述的专利技术的特征在于,在权利要求2至5中的 任一项所述的音质转换学习系统中,还具备转换函数合成单元, 该转换函数合成单元合成由上述中间转换函数生成单元生成的 中间转换函数和由上述目标转换函数生成单元生成的目标转换 函数,由此生成用于将上述原说话者的声音转换为上述目标说 话者的声音的函数。根据本专利技术,使用所合成的函数的情况与使用中间转换函 数以及目标转换函数的情况相比,缩短将原说话者的声音转换 为目标说话者的声音所需的计算时间。另夕卜,可以减小在音质 转换处理时使用的存储器尺寸。权利要求7所述的专利技术提供一种音质转换系统,其特征在 于,具备音质转换单元,该音质转换单元使用由权利要求2至6 中的任一项所述的音质转换学习系统生成的函数,本文档来自技高网...

【技术保护点】
一种音质转换系统,其将原说话者的声音转换为目标说话者的声音,其特征在于,具备: 音质转换单元,其将原说话者的声音经由向中间说话者的声音的转换而转换为目标说话者的声音。

【技术特征摘要】
【国外来华专利技术】JP 2005-12-2 349754/20051.一种音质转换系统,其将原说话者的声音转换为目标说话者的声音,其特征在于,具备音质转换单元,其将原说话者的声音经由向中间说话者的声音的转换而转换为目标说话者的声音。2. —种音质转换学习系统,其学习用于将 一 个以上的原说 话者各自的声音转换为一个以上的目标说话者各自的声音的函 数,其特征在于,具备中间转换函数生成单元,其学习并生成用于将上述原说话 者的声音转换为对上述一个以上的各个原说话者共用设置的一 个中间说话者的声音的中间转换函数;以及目标转换函数生成单元,其学习并生成用于将上述中间说 话者的声音转换为上述目标说话者的声音的目标转换函数。3. 根据权利要求2所述的音质转换学习系统,其特征在于, 上述目标转换函数生成单元作为上述目标转换函数而生成用于将上述原说话者的声音通过上述中间转换函数转换后的声 音转换为上述目标说话者的声音的函数。4. 根据权利要求2或3所述的音质转换学习系统,其特征在于,在上述学习中使用的中间说话者的声音是从用规定的音质 输出任意声音内容的声音合成装置输出的声音。5. 根据权利要求2至4中的任一项所述的音质转换学习系 统,其特征在于,在上述学习中使用的原说话者的声音是从用规定的音质输 出任意声音内容的声音合成装置输出的声音。6. 根据权利要求2至5中的任一项所述的音质转换学习系 统,其特征在于,还具备转换函数合成单元,其合成由上述中间转换函数生成单元 生成的中间转换函数和由上述目标转换函数生成单元生成的目 标转换函数,由此生成用于将上述原说话者的声音转换为上述 目标说话者的声音的函数。7. —种音质转换系统,其特征在于,具备 音质转换单元,其使用由权利要求2至6中的任一项所述的音质转换学习系统生成的函数,将上述原说话者的声音转换为 上述目标说话者的声音。8. 根据权利要求7所述的音质转换系统,其特征在于, 上述音质转换单元具备中间音质转换单元,其使用上述中间转换函数,根据上述 原说话者的声音生成上述中间说话者的声音;以及目标音质转换单元,其使用上述目标转换函数,根据由上述中间音质转换单元生成的上述中间说话者的声音生成上述目 标说话者的声音。9. 根据权利要求7所述的音质转换系统,其特征在于, 上述音质转换单元使用合成了上述中间转换函数和上述目标转换函数而得到的函数,将上述原说话者的声音转换为上述 目标说话者的声音。10. 根据权利要求7至9中的任 一 项所述的音质转...

【专利技术属性】
技术研发人员:舛田刚志
申请(专利权)人:旭化成株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1