语音合成发音人自适应方法及系统技术方案

技术编号:11248551 阅读:100 留言:0更新日期:2015-04-01 21:23
本发明专利技术公开了一种语音合成发音人自适应方法及系统,该方法包括:在接收到需要进行语音合成的待处理文本后,获取用户信息;从原始发音人模型集合中筛选出满足用户信息要求的发音人模型,形成有效发音人模型集合;在有效发音人模型集合中指定一发音人模型播报所述待处理文本。本发明专利技术方法及系统可以根据用户信息自适应地调整发音人模型,因此,可使基于本发明专利技术方法及系统的语音合成技术激起用户对播报内容的兴趣,并增强用户对播报内容的理解和记忆。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种语音合成发音人自适应方法及系统,该方法包括:在接收到需要进行语音合成的待处理文本后,获取用户信息;从原始发音人模型集合中筛选出满足用户信息要求的发音人模型,形成有效发音人模型集合;在有效发音人模型集合中指定一发音人模型播报所述待处理文本。本专利技术方法及系统可以根据用户信息自适应地调整发音人模型,因此,可使基于本专利技术方法及系统的语音合成技术激起用户对播报内容的兴趣,并增强用户对播报内容的理解和记忆。【专利说明】语音合成发音人自适应方法及系统
本专利技术涉及语音合成技术,尤其涉及一种语音合成发音人自适应方法及系统。
技术介绍
语音合成技术主要是指将文本转化为语音118)输出的技术,该技术解决如何将文字信息转化为声音信息的问题,从而变看为听,使得人们获取信息的方式更加丰富和自然。1了3的实现主要包括语言学处理、韵律处理和声学处理,语言学处理在文本转化为语音的过程中起着重要的作用,主要模拟人对自然语言的理解过程,进行文本规整、词的切分、语法分析和语义分析,使计算机对输入的文本能完全理解,并给出韵律处理和声学处理所需要的各种发音提示;韵律处理主要是为合成语音规划出音段特征,如音高、音长和音强等,使合成语音能正确表达语意,听起来更加自然;声学处理则是按照语言学处理结果和韵律处理结果的要求输出语音,即合成语音。1^3与一些用预先录制的声音文件实现发声的应用相比,1X8的发声引擎只有几兆大小,不需要大量的声音文件支持,因此可以节省很大的储存空间,并且可以朗读预先未知的任何语句。现在已经有许多应用利用!'13技术实现语音功能,例如一些播音应用可以用来读小说或者作校对工作,还可以朗读电子邮件。 由于113技术最终是将文本转化为语音输出,因此在声学处理过程中就需要指定发音人模型,当前使用113技术的应用,其发音人模型的指定主要有以下两种策略: 默认策略:即应用只提供一种发音人模型,大部分应用均是采用该种设定默认发音人模型的策略,例如百度地图,用户在使用百度地图时,一般听到的只有一种发音人声音,不可以通过设置项来改变。该种默认策略存在的缺陷是发音人模型单一,适应性差,用户只能被迫接受系统提供的1^3发音人模型选项。 手动设置策略:即应用支持用户手动切换发音人模型,这类应用比较少,例如灵犀语音助手,该种应用是在设置项中列出可供选择的语言选项,用户可以通过选择具体的语言选项完成113发音人模型的修改,目前灵犀语音助手支持中文、粵语的语言选项。该种手动设置策略虽然提高了适应性,但是需要手动设置,增加了用户操作步骤,影响用户体验效果。
技术实现思路
本专利技术的实施例针对现有173发音人模型指定策略存在的适应性差、操作繁琐的技术问题,提供一种113发音人自适应方法及系统。 为实现上述目的,本专利技术采用的技术方案为:一种语音合成发音人自适应方法,包括: 在接收到需要进行语音合成的待处理文本后,获取用户信息; 从原始发音人模型集合中筛选出满足所述用户信息要求的发音人模型,形成有效发音人模型集合; 在所述有效发音人模型集合中指定一发音人模型播报所述待处理文本。 优选的是,所述从原始发音人模型集合中筛选出满足所述用户信息要求的发音人模型,形成有效发音人模型集合包括: 根据所述用户信息中各信息类型的优先级,在原始发音人模型集合中逐层筛选出满足对应信息类型要求的发音人模型,形成有效发音人模型集合。 优选的是,所述用户信息包括用户地理位置坐标、用户性别和用户年龄段中的至少一种。 优选的是,所述用户信息包括用户地理位置坐标;所述方法还包括: 根据所述用户地理位置坐标,确定用户所在地域; 获取对应所述用户所在地域的地方性语言; 将对应所述地方性语言的发音人模型作为满足所述用户地理位置坐标要求的发音人模型。 优选的是,所述用户信息包括用户性别及/或用户年龄段;所述获取用户信息还包括: 获取用户录制的音频数据; 根据所述音频数据获取所述用户性别及/或所述用户年龄段; 所述方法还包括: 将异性发音人模型作为满足所述性别信息要求的发音人模型;及/或, 将同年龄段发音人模型作为满足所述年龄段信息要求的发音人模型。 为了实现上述目的,本专利技术采用的技术方案包括:一种语音合成发音人自适应系统,包括: 信息获取模块,用于在接收到需要进行语音合成的待处理文本后,获取用户信息; 发音人筛选模块,用于从原始发音人模型集合中筛选出满足所述用户信息要求的发音人模型,形成有效发音人模型集合;以及, 发音人指定模块,用于在所述有效发音人模型集合中指定一发音人模型播报所述待处理文本。 优选的是,所述发音人筛选模块还用于根据所述用户信息中各信息类型的优先级,从原始发音人模型集合中逐层筛选出满足对应信息类型要求的发音人模型,形成有效发音人模型集合。 优选的是,所述用户信息包括用户地理位置坐标、用户性别和用户年龄段中的至少一种。 优选的是,所述用户信息包括用户地理位置坐标;所述系统还包括: 地域划分模块,用于根据所述用户地理位置坐标,确定用户所在地域; 语言获取模块,用于获取对应所述用户所在地域的地方性语言;以及, 筛选条件指定模块,用于将对应所述地方性语言的发音人模型作为满足所述用户地理位置坐标要求的发音人模型。 优选的是,所述用户信息包括用户性别及/或用户年龄段;所述信息获取模块还包括: 音频获取单元,用于获取用户录制的音频数据;以及, 信息获取单元,用于根据所述音频数据获取所述用户性别及/或所述用户年龄段; 所述系统还包括: 筛选条件指定模块,将异性发音人模型作为满足所述性别信息要求的发音人模型;及/或,将同年龄段发音人模型作为满足所述年龄段信息要求的发音人模型。 本专利技术的有益效果在于,本专利技术的语音合成发音人自适应方法及系统可以在接收到用户指定的需要进行语音合成的待处理文本后,自动获取例如是用户地理位置坐标、用户性别、用户年龄段等的用户信息,并筛选出满足用户信息要求的发音人模型进行待处理文本的播报,因此可以实现根据用户信息自适应地调整发音人模型的目的。在此,由于可以根据人们日常交流的喜好设定用户信息中不同信息类型的筛选要求,因此,基于本专利技术的语音合成发音人自适应方法及系统的113技术可以激起用户对播报内容的兴趣,并增强用户对播报内容的理解和记忆。 【专利附图】【附图说明】 图1示出了根据本专利技术语音合成发音人自适应方法的一种实施方式的流程图; 图2示出了逐层筛选出满足对应信息类型要求的发音人模型的一种实施方式的流程图; 图3示出了根据本专利技术语音合成发音人自适应系统的一种实施结构的方框原理图。 【具体实施方式】 下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。 本专利技术为了解决现有发音人指定策略存在的适应性差、操作繁琐的问题,提供一种语音合成发音人自适应方法,如图1所示,该方法包括如下步骤: 步骤51:在接收到需要进行语音合成的待处理文本后,获取用户信息,该用户信息可包括反本文档来自技高网
...
语音合成发音人自适应方法及系统

【技术保护点】
一种语音合成发音人自适应方法,其特征在于,包括:在接收到需要进行语音合成的待处理文本后,获取用户信息;从原始发音人模型集合中筛选出满足所述用户信息要求的发音人模型,形成有效发音人模型集合;在所述有效发音人模型集合中指定一发音人模型播报所述待处理文本。

【技术特征摘要】

【专利技术属性】
技术研发人员:张伟顿双保于淼郭正欧
申请(专利权)人:天津讯飞信息科技有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1