说话人可选的语音合成系统及其实现方法技术方案

技术编号:7606282 阅读:187 留言:0更新日期:2012-07-22 11:35
本发明专利技术公开了一种说话人可选的语音合成系统及其实现方法,该语音合成系统包括:目标说话人数据提取装置、模型自适应装置以及目标说话人语音合成装置。该实现方法包括:(A)目标说话人数据提取装置采集目标说话人的语音数据;(B)模型自适应装置根据目标说话人的语音数据生成目标说话人模型,并存储至目标说话人模型库;(C)当用户激活该语音合成系统后,目标说话人语音合成装置实现语音合成功能。本发明专利技术的手机嵌入式版本可以根据用户喜好选择指定目标人阅读短信和手机文本,扩展了手机的功能,并使用户利用手机获取信息的过程更充满趣味性和互动性。另外,本发明专利技术的语音合成系统还可应用于除手机外的平台。

【技术实现步骤摘要】

本专利技术涉及一种语音合成系统,尤其是一种说话人可选的语音合成系统。本专利技术还涉及该语音合成系统的实现方法。
技术介绍
当前的手机平台一般以文字来表达短信或文本文件的内容信息,形式单一,没有趣味,互动性不强。而语音合成技术可以一定程度上地解决这一问题,即将文字信息转换为音频,用人声把手机中的文字朗读给用户听。但现有的语音合成系统大多是单一化的,一个合成系统一般只包括一到两个说话人,仍不能满足用户多样化的情感需求。如果用户不喜欢系统自带的说话人声音,甚至还会对使用系统产生抵触情绪。现有的技术能一定程度上解决上述问题,如中国专利号为200480010899. X,名称为“依赖于源的文本到语音系统”的专利描述了一种从文本消息生成语音的方法,该方法包括确定与文本消息的源相关联的声音的语音特征向量,并且比较该语音特征向量和多个语者模型,但是其缺点是语者模型由系统给定并且固定,对于用户要求的适应性不强。中国专利号为01116305. 4,名称为“由文本生成个性化语音的方法”的专利介绍了一种具体的生成自适应模型的方法,但没有阐述获得目标说话人语音数据的具体方法。另外,除了上述手机平台外,目前还没有对于其他平台的、用户体验效果较好的语音合成系统。
技术实现思路
本专利技术要解决的技术问题是提供一种说话人可选的语音合成系统,它富有趣味性和表现力,不仅可以提升用户之间沟通的乐趣(如手机用户之间利用短信沟通的乐趣),也可以提升用户对于阅读的体验。为解决上述技术问题,本专利技术的说话人可选的语音合成系统,包括目标说话人数据提取装置,用于提取目标说话人的语音数据,该数据包括音频数据和对应的文本数据;该装置包括录音模块,用于录制目标说话人语音;带音素特征的文本库,用于提供给目标说话人朗读;语音识别模块,用于将所录制的目标说话人语音(音频数据)转化为对应的文本数据;其中,该录音模块中,录制目标说话人语音的音源包括环境音、电话通话语音;模型自适应装置,用于生成和选取指定目标说话人模型,该装置包括说话人转换模块,用于根据目标说话人的语音数据生成目标说话人模型;目标说话人模型库,用于存储目标说话人模型;目标说话人语音合成装置,用于生成目标说话人朗读文本的合成语音,该装置包括文本分析模块,用于对朗读文本进行分析;语音合成模块,用于生成指定目标说话人的朗读固定文本的合成语音。本专利技术的说话人可选的语音合成系统可以应用于包括手机平台、电子邮件平台、语音播报平台的语音合成系统。本专利技术要解决的另一技术问题是提供上述语音合成系统的实现方法。为解决上述技术问题,本专利技术的说话人可选的语音合成系统的实现方法,包括步骤(A)目标说话人数据提取装置采集目标说话人的语音数据;(B)模型自适应装置根据目标说话人的语音数据生成目标说话人模型,并存储至目标说话人模型库;(C)当用户激活该语音合成系统后,目标说话人语音合成装置按照下列步骤实现语音合成功能(1)用户指定文本和人名;其中,对于应用于手机平台的语音合成系统中,用户可以通过如下方式指定文本和人名①将语音合成系统中的目标说话人模型与手机通讯录的人名绑定,把以固定人名为发送者的短信作为指定文本,相关人名为指定人名;②以存储在手机中的文本作为指定文本,用户手动指定人名;(2)文本分析模块分析文本;(3)语音合成模块根据人名从目标说话人模型库中抽取对应模型,并根据文本分析模块的分析结果,生成目标人朗读文本的合成语音;(4)播放所合成的语音。所述步骤(A)中,目标说话人数据提取装置可由用户自行决定以下列任一种方式对目标说话人进行语音数据提取(1)由目标说话人朗读目标说话人数据提取装置指定的带音素特征的文本并用录音模块录音,以指定的带音素特征的文本作为文本数据,以所录制的语音作为音频数据;其中,指定的带音素特征的文本中的汉字应覆盖所有音节;(2)由目标说话人朗读任意自选文本并用录音模块录音,再由语音识别模块将所录制语音转换为文本,以该文本作为文本数据,以所录制的语音作为音频数据;(3)利用录音模块录制目标说话人的通话语音,再由语音识别模块将所录制的语音转换为文本,以该文本作为文本数据,以所录制的语音作为音频数据。方式( 和(3)中的录音时间须满足目标说话人数据提取装置的指定时间,若单次录音的时长不满足要求,则需要多次录音使得音频总时长满足目标说话人数据提取装置的指定要求,并且将满足要求的音频总和作为目标说话人的音频数据。本专利技术的语音合成系统中,为了提高合成的目标说话人的语音质量,即获得参数匹配度高的目标说话人模型,该语音合成系统包含了含有完备音素特征的文本提供给目标说话人朗读并录音;若用户不喜欢该数据采集方式,也可让目标说话人朗读任意长度的文本并录音或录制和目标说话人的通话录音,再用语音识别的方式识别文本内容,录音必须满足指定时长。本专利技术的应用于手机平台的语音合成系统,能结合阅读短信和阅读手机文本两种功能。另外,用户可以将系统与手机通讯录中的人名进行绑定,利用目标说话人的语音朗读手机短信,也可以指定任意手机中的文本段落利用目标说话人的语音朗读;当系统的目标说话人模型库和手机通讯录中的人名进行绑定,当收到目标说话人的短信时,用户可以使用该人的声音阅读短信。对于其他手机所储存的文本,该系统也可以让用户指定目标说话人对其进行朗读。因此,本专利技术的语音合成系统富有趣味性和表现力,可以提升用户之间沟通的乐趣,而且也可以提供多样的阅读体验。另外,本专利技术的语音合成系统还可应用于除手机外的平台,如电子邮件平台、语音播报平台等。附图说明下面结合附图与具体实施方式对本专利技术作进一步详细的说明图1是本专利技术的语音合成系统的模块示意图;图2是本专利技术的系统运行流程示意图;图3是本专利技术采集目标说话人数据的流程示意图。具体实施例方式为对本专利技术的
技术实现思路
、特点与功效有更具体的了解,现以手机平台的说话人可选的语音合成系统为例并结合图示的实施方式,详述如下本专利技术的手机平台的说话人可选的语音合成系统,是基于手机操作系统的嵌入式开发版本,可用于合成目标说话人短信的语音并朗读或者利用目标说话人的语音朗读指定的手机文本。该语音合成系统,包括目标说话人数据提取装置、模型自适应装置以及目标说话人语音合成装置。其中,该语音合成系统的模块示意图,如图1所示。目标说话人数据提取装置,用于提取目标说话人的语音数据,该数据包括音频数据和对应的文本数据。其中,该目标说话人数据提取装置包括录音模块,用于录制目标说话人语音;该录音模块可以对来自环境音或电话通话语音的音源进行录音;带音素特征的文本库,用于提供给目标说话人朗读;语音识别模块,用于将所录制的目标说话人语音转化为对应的文本数据。为了多方面满足用户的喜好,目标说话人数据提取装置可由用户自行选择以下3 种方式中的任意一种,对目标说话人进行语音数据提取(图3所示)(1)由目标说话人朗读目标说话人数据提取装置从带音素特征的文本库中提取的带音素特征的文本并用录音模块对其录音,以指定的带音素特征的文本作为文本数据,以所录制的语音作为音频数据;其中,指定的带音素特征的文本中的汉字覆盖所有音节;(2)若用户觉得朗读指定文本很乏味,还可以由目标说话人朗读任意自选文本并用录音模块对其录音,再由语音识别模块将所录制语音转换为文本,以该文本作为文本数据,以所本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:吴悦
申请(专利权)人:盛乐信息技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术