语音合成系统、方法及非暂态计算机可读取媒体技术方案

技术编号:28424799 阅读:24 留言:0更新日期:2021-05-11 18:33
一种语音合成系统、方法及非暂态计算机可读取媒体。语音合成系统包含操作界面、储存单元以及处理器。操作界面提供多个语言选项以供使用者选择输出语言选项。储存单元储存多个声学模型,每一声学模型分别对应该多个语言选项的其中之一,且每一声学模型包含对应一特定人声的多个音素标签。处理器接收一文本文件,根据文本文件、输出语言选项所对应的声学模型和一语音合成器,产生对应特定人声的输出语音数据。语音合成系统可达成以使用者的声音输入中文语句,而系统以使用者的声音输出意义正确的英语语句的转换功能。

【技术实现步骤摘要】
语音合成系统、方法及非暂态计算机可读取媒体
本案涉及一种电子系统、操作方法及非暂态计算机可读取媒体。详细而言,本案涉及一种转换及/或合成特定人声的系统、方法及非暂态计算机可读取媒体。
技术介绍
在全球化趋势下,文化交流及影音娱乐系统需要能够适应多语(Multilingualism)环境。例如:服务型机器人、说故事装置、影音媒体中的虚拟人物、或者电影/多媒体影片配音当中的角色,皆可能需要以特定声音发出不同种类语言的声音,例如中文、英语、日语…等,甚至有时会需要多种语言夹杂播放的声音,例如中英夹杂的语音,而这些服务型机器人、说故事装置和虚拟人物等,需要多语言的文字转语音引擎(TTS)以进行合成语音。然而,大多数的声优或配音员,仅能够对一种语言进行配音或是录制单一种语言的语料来产生多种语言文字的文字转语音引擎,从而执行合成语音。能够进行多种语言的配音或是语料录制的声优相当稀少,使得有需要特定声音发出多种语言的产品难以产出或客制化。
技术实现思路
为了解决前述问题,本案提供以下的系统、方法以及非暂态计算机可读取媒体。本案的一面向涉及一种语音合成系统。该语音合成系统包含一操作界面、一储存单元以及一处理器,该处理器通讯耦接于该操作界面以及该储存单元。该操作界面提供多个语言选项以供一使用者选择其中之一作为一输出语言选项。该储存单元,储存多个声学模型,其中每一声学模型是分别对应该多个语言选项的其中之一,且每一声学模型包含对应一特定人声的多个音素标签。该处理器用以执行以下步骤:接收一文本文件,根据该文本文件、该输出语言选项所对应的该多个声学模型中的其中之一和一语音合成器,产生对应该特定人声的一输出语音数据。本案的另一面向涉及一种语音合成方法。该语音合成方法包含:接收由一使用者于多个语言选项中选择的一输出语言选项;自一储存单元存取多个声学模型,其中每一声学模型是分别对应该多个语言选项的其中之一,且每一声学模型包含对应一特定人声的多个音素标签;接收一文本文件;以及根据该文本文件、该输出语言选项所对应的该多个声学模型的其中之一和一语音合成器,产生对应该特定人声的一输出语音数据。本案的又一面向涉及一种非暂态计算机可读取媒体,包含至少一计算机可执行指令,当该至少一计算机可执行指令由一处理器执行时实施多个步骤,该些步骤包含:接收由一使用者于多个语言选项中选择的一输出语言选项;自一储存单元存取多个声学模型,其中每一声学模型是分别对应该多个语言选项的其中之一,且每一声学模型包含对应一特定人声的多个音素标签;接收一文本文件;以及根据该文本文件、该输出语言选项所对应的该多个声学模型中的其中之一和一语音合成器,产生对应该特定人声的一输出语音数据。如本揭示文件所述,处理器可存取第二声学模型(对应英语),并执行语音合成器,使语音合成器可套用第二声学模型输出文本文件(例如:Thehouseisonfire)的内容。应注意的是,语音合成器套用第二声学模型所输出的语音数据是对应于使用者的声音。亦即,语音合成系统可达成以使用者的声音输入中文语句,而系统以使用者的声音输出意义正确的英语语句的转换功能。基本上,应用本案的语音合成系统时,声优可以仅录制一种语言的语料,语音合成系统可对应地输出以该声优声音转换而成的其他不同语言种类的语音。应注意的是,前述的
技术实现思路
以及后述的实施方式皆仅是举例说明而已,其主要目的是为详细地解释本案申请专利范围当中的内容。附图说明参照后续段落中的实施方式以及下列附图,当可更佳地理解本案的内容:图1为根据本案一些实施例绘示的语音合成系统的示意图;图2为根据本案一些实施例绘示的语音合成方法的步骤流程图;图3为根据本案一些实施例绘示的声学模型训练方法的示意图;以及图4为根据本案一些实施例绘示的文字转换产生方法的示意图。【符号说明】100:语音合成系统110:界面120:储存单元130:处理器200:服务器S1~S4:步骤流程S31~S33:步骤流程具体实施方式以下将以附图及详细叙述清楚说明本案的精神,任何所属
中具有通常知识者在了解本案的实施例后,当可由本案所教示的技术,加以改变及修饰,其并不脱离本案的精神与范围。本文的用语只为描述特定实施例,而无意为本案的限制。单数形式如“一”、“这”、“此”、“本”以及“该”,如本文所用,同样也包含复数形式。关于本文中所使用的“耦接”或“连接”,均可指二或多个元件或装置相互直接作实体接触,或是相互间接作实体接触,亦可指二或多个元件或装置相互操作或动作。关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。关于本文中所使用的“及/或”,是包括所述事物的任一或全部组合。关于本文中所使用的用词(terms),除有特别注明外,通常具有每个用词使用在此领域中、在本案的内容中与特殊内容中的平常意义。某些用以描述本案的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本案的描述上额外的引导。图1为根据本案一些实施例绘示的语音合成系统100的示意图。如图1所示,在一些实施例中,语音合成系统100可包含界面110、储存单元120以及处理器130。在一些实施例中,界面110可包含但不限于以视频装置或音频装置实现人机互动的界面(Interface),界面110可包含操作界面以及语音接收界面。例如,操作界面可通过显示器以实施,通过播放可视图形或连续影像输出信息,并以触控方式或其他输入方式供使用者输入信息。例如,语音接收界面可通过麦克风以及扬声器以实施,通过播放声音输出信息,并以收音、录音方式供使用者输入信息。在一些实施例中,语音接收界面也可接收影像文件,且影像文件可包含对应于可选择的数种语言的语音数据及/或字幕数据。在一些实施例中,储存单元120可包含但不限于快闪(flash)记忆体、硬盘(HDD)、固态硬盘(SSD)、动态随机存取记忆体(DRAM)或静态随机存取记忆体(SRAM)。在一些实施例中,储存单元120作为一种非暂态计算机可读取媒体,储存了至少一计算机可执行指令,此计算机可执行指令关联于一种语音合成方法。在一些实施例中,处理器130可包含但不限于单一处理器以及多个微处理器的集成,例如,中央处理器(CPU)或绘图处理器(GPU)等。该些(微)处理器电性耦接于记忆体,借此,处理器130可自储存单元120存取此计算机可执行指令,并依据此计算机可执行指令,执行特定应用程序,借以实施前述语音合成方法。为了更佳地理解此语音合成方法,其详细步骤将于下面段落中解释之。如图1所示,在一些实施例中,处理器130可选择性地通讯耦接于服务器200。在一些实施例中,服务器200当中可储存有多个声学模型以及外部声学模型,该多个声学模型以及该外部声学模型可供处理器130存取,以进行语音合成使用,以及新的声学模型的训练。应理解,前述的“本文档来自技高网
...

【技术保护点】
1.一种语音合成系统,其特征在于,包含:/n一操作界面,提供多个语言选项以供一使用者选择其中之一作为一输出语言选项;/n一储存单元,储存多个声学模型,其中每一声学模型是分别对应该多个语言选项的其中之一,且每一声学模型包含对应一特定人声的多个音素标签;以及/n一处理器,通讯耦接于该操作界面及该储存单元,其中该处理器用以执行以下步骤:/n接收一文本文件,根据该文本文件、该输出语言选项所对应的该多个声学模型的其中之一和一语音合成器,产生对应该特定人声的一输出语音数据。/n

【技术特征摘要】
20191111 TW 1081408631.一种语音合成系统,其特征在于,包含:
一操作界面,提供多个语言选项以供一使用者选择其中之一作为一输出语言选项;
一储存单元,储存多个声学模型,其中每一声学模型是分别对应该多个语言选项的其中之一,且每一声学模型包含对应一特定人声的多个音素标签;以及
一处理器,通讯耦接于该操作界面及该储存单元,其中该处理器用以执行以下步骤:
接收一文本文件,根据该文本文件、该输出语言选项所对应的该多个声学模型的其中之一和一语音合成器,产生对应该特定人声的一输出语音数据。


2.根据权利要求1所述的语音合成系统,其特征在于,该操作界面还包含用以提供该使用者选择该多个语言选项的其中之一作为一输入语言选项,且该输入语言选项和该输出语言选项对应于不同语言,且该语音合成系统还包含:
一语音接收界面,用以接收对应该输入语言选项的一输入语音数据;
一转换器,将该输入语音数据转换成对应该输入语言选项的一输入文字;以及
一翻译器,将该输入文字翻译成对应该输出语言选项的一输出文字,以作为该文本文件。


3.根据权利要求1所述的语音合成系统,其特征在于,该储存单元更储存:
一外部声学模型,该外部声学模型是对应该多个语言选项且对应一外部人声,该外部声学模型包含有对应该外部人声的多个外部音素标签,
该多个声学模型至少包含一第一声学模型和一第二声学模型,该第一声学模型是对应一第一语言选项且包含有对应的多个第一音素标签,该第二声学模型是对应一第二语言选项且包含有对应的多个第二音素标签,
该第二声学模型对应的该多个第二音素标签是经由该第一声学模型对应的该多个第一音素标签和该外部声学模型对应的该多个外部音素标签而产生。


4.根据权利要求3所述的语音合成系统,其特征在于,该储存单元更储存对应该第一声学模型的多个训练语料,第一声学模型对应的该多个第一音素标签产生的步骤如下:
对该第一声学模型对应的该多个训练语料进行一文脉分析、一频谱分析以及一发音特征分析,以产生该第一声学模型的该多个第一音素标签;
搜寻该外部语言声学模型对应的该多个外部音素标签中匹配于该第一声学模型的该多个第一音素标签;以及
建立该第一声学模型的该多个第一音素标签和该外部声学模型的该多个外部音素标签之间的一映射关系。


5.根据权利要求4所述的语音合成系统,其特征在于,其中该文脉分析是用以计算每一个音素于该多个训练语料中分别于一单字、一字词、多个字词组及一单句中的一相对位置。


6.根据权利要求5所述的语音合成系统,其特征在于,其中该频谱分析是用以计算该多个训练语料于该单字、该字词、该多个字词组及该单句中的该相对位置时对应至一频域中的一数值。


7.根据权利要求6所述的语音合成系统,其特征在于,其中该发音特征分析是用以根据每一个音素的该数值计算出对应的多个发音特征值。


8.根据权利要求7所述的语音合成系统,其特征在于,其中通过一音素分类器将该第一声学模型的每一个音素对应的该数值的该多个发音特征值和该外部声学模型的每一个音素对应的该数值的该多个发音特征值进行分类,以将近似的该多个发音特征值归于同一群组,进而建立该映射关系。


9.根据权利要求1所述的语音合成系统,其特征在于,该操作界面还包含用以提供该使用者选择该多个语言选项的其中之一作为一输入语言选项,且该输入语言选项和该输出语言选项是为不同语言选项,且该语音合成系统还包含有:
一语音接收界面,用以接收一影像文件,其中该影像文件包含对应该输入语言选项的一影像语音数据,以及对应该输出语言选项的一字幕数据,
其中该处理器更用以将该字幕数据作为该文本文件,且以该输出语音数据取代该影像语音数据。


10.一种语音合成方法,其特征在于,包含:
接收由一使用者于多语言选项中选择的一输出语言...

【专利技术属性】
技术研发人员:邓广丰蔡政宏刘瀚文简志中陈譔文
申请(专利权)人:财团法人资讯工业策进会
类型:发明
国别省市:中国台湾;71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1