【技术实现步骤摘要】
语音合成系统、方法及非暂态计算机可读取媒体
本案涉及一种电子系统、操作方法及非暂态计算机可读取媒体。详细而言,本案涉及一种转换及/或合成特定人声的系统、方法及非暂态计算机可读取媒体。
技术介绍
在全球化趋势下,文化交流及影音娱乐系统需要能够适应多语(Multilingualism)环境。例如:服务型机器人、说故事装置、影音媒体中的虚拟人物、或者电影/多媒体影片配音当中的角色,皆可能需要以特定声音发出不同种类语言的声音,例如中文、英语、日语…等,甚至有时会需要多种语言夹杂播放的声音,例如中英夹杂的语音,而这些服务型机器人、说故事装置和虚拟人物等,需要多语言的文字转语音引擎(TTS)以进行合成语音。然而,大多数的声优或配音员,仅能够对一种语言进行配音或是录制单一种语言的语料来产生多种语言文字的文字转语音引擎,从而执行合成语音。能够进行多种语言的配音或是语料录制的声优相当稀少,使得有需要特定声音发出多种语言的产品难以产出或客制化。
技术实现思路
为了解决前述问题,本案提供以下的系统、方法以及非暂态计算机可读取媒体。本案的一面向涉及一种语音合成系统。该语音合成系统包含一操作界面、一储存单元以及一处理器,该处理器通讯耦接于该操作界面以及该储存单元。该操作界面提供多个语言选项以供一使用者选择其中之一作为一输出语言选项。该储存单元,储存多个声学模型,其中每一声学模型是分别对应该多个语言选项的其中之一,且每一声学模型包含对应一特定人声的多个音素标签。该处理器用以执行以下步骤:接收一文本文件,根据该 ...
【技术保护点】
1.一种语音合成系统,其特征在于,包含:/n一操作界面,提供多个语言选项以供一使用者选择其中之一作为一输出语言选项;/n一储存单元,储存多个声学模型,其中每一声学模型是分别对应该多个语言选项的其中之一,且每一声学模型包含对应一特定人声的多个音素标签;以及/n一处理器,通讯耦接于该操作界面及该储存单元,其中该处理器用以执行以下步骤:/n接收一文本文件,根据该文本文件、该输出语言选项所对应的该多个声学模型的其中之一和一语音合成器,产生对应该特定人声的一输出语音数据。/n
【技术特征摘要】
20191111 TW 1081408631.一种语音合成系统,其特征在于,包含:
一操作界面,提供多个语言选项以供一使用者选择其中之一作为一输出语言选项;
一储存单元,储存多个声学模型,其中每一声学模型是分别对应该多个语言选项的其中之一,且每一声学模型包含对应一特定人声的多个音素标签;以及
一处理器,通讯耦接于该操作界面及该储存单元,其中该处理器用以执行以下步骤:
接收一文本文件,根据该文本文件、该输出语言选项所对应的该多个声学模型的其中之一和一语音合成器,产生对应该特定人声的一输出语音数据。
2.根据权利要求1所述的语音合成系统,其特征在于,该操作界面还包含用以提供该使用者选择该多个语言选项的其中之一作为一输入语言选项,且该输入语言选项和该输出语言选项对应于不同语言,且该语音合成系统还包含:
一语音接收界面,用以接收对应该输入语言选项的一输入语音数据;
一转换器,将该输入语音数据转换成对应该输入语言选项的一输入文字;以及
一翻译器,将该输入文字翻译成对应该输出语言选项的一输出文字,以作为该文本文件。
3.根据权利要求1所述的语音合成系统,其特征在于,该储存单元更储存:
一外部声学模型,该外部声学模型是对应该多个语言选项且对应一外部人声,该外部声学模型包含有对应该外部人声的多个外部音素标签,
该多个声学模型至少包含一第一声学模型和一第二声学模型,该第一声学模型是对应一第一语言选项且包含有对应的多个第一音素标签,该第二声学模型是对应一第二语言选项且包含有对应的多个第二音素标签,
该第二声学模型对应的该多个第二音素标签是经由该第一声学模型对应的该多个第一音素标签和该外部声学模型对应的该多个外部音素标签而产生。
4.根据权利要求3所述的语音合成系统,其特征在于,该储存单元更储存对应该第一声学模型的多个训练语料,第一声学模型对应的该多个第一音素标签产生的步骤如下:
对该第一声学模型对应的该多个训练语料进行一文脉分析、一频谱分析以及一发音特征分析,以产生该第一声学模型的该多个第一音素标签;
搜寻该外部语言声学模型对应的该多个外部音素标签中匹配于该第一声学模型的该多个第一音素标签;以及
建立该第一声学模型的该多个第一音素标签和该外部声学模型的该多个外部音素标签之间的一映射关系。
5.根据权利要求4所述的语音合成系统,其特征在于,其中该文脉分析是用以计算每一个音素于该多个训练语料中分别于一单字、一字词、多个字词组及一单句中的一相对位置。
6.根据权利要求5所述的语音合成系统,其特征在于,其中该频谱分析是用以计算该多个训练语料于该单字、该字词、该多个字词组及该单句中的该相对位置时对应至一频域中的一数值。
7.根据权利要求6所述的语音合成系统,其特征在于,其中该发音特征分析是用以根据每一个音素的该数值计算出对应的多个发音特征值。
8.根据权利要求7所述的语音合成系统,其特征在于,其中通过一音素分类器将该第一声学模型的每一个音素对应的该数值的该多个发音特征值和该外部声学模型的每一个音素对应的该数值的该多个发音特征值进行分类,以将近似的该多个发音特征值归于同一群组,进而建立该映射关系。
9.根据权利要求1所述的语音合成系统,其特征在于,该操作界面还包含用以提供该使用者选择该多个语言选项的其中之一作为一输入语言选项,且该输入语言选项和该输出语言选项是为不同语言选项,且该语音合成系统还包含有:
一语音接收界面,用以接收一影像文件,其中该影像文件包含对应该输入语言选项的一影像语音数据,以及对应该输出语言选项的一字幕数据,
其中该处理器更用以将该字幕数据作为该文本文件,且以该输出语音数据取代该影像语音数据。
10.一种语音合成方法,其特征在于,包含:
接收由一使用者于多语言选项中选择的一输出语言...
【专利技术属性】
技术研发人员:邓广丰,蔡政宏,刘瀚文,简志中,陈譔文,
申请(专利权)人:财团法人资讯工业策进会,
类型:发明
国别省市:中国台湾;71
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。