一种语音合成的方法、装置、计算设备及计算机存储介质制造方法及图纸

技术编号:20972335 阅读:23 留言:0更新日期:2019-04-29 17:47
本发明专利技术涉及语音信号处理及语音合成技术领域,尤其公开了一种语音合成的方法、装置、计算设备及计算机存储介质,其中,方法包括:接收用户输入的文本信息;将所述文本信息拆分为分句;生成所述分句对应的拼音码;将所述拼音码输入预设深度学习模型中,得到相应的合成语音。由此可见,利用本发明专利技术方案,可以减少语料库中的文本量,方便快捷的实现语音合成。

A Method, Device, Computing Equipment and Computer Storage Media for Speech Synthesis

The invention relates to the field of speech signal processing and speech synthesis technology, in particular to a speech synthesis method, device, computing device and computer storage medium, in which the method includes: receiving text information input by the user; dividing the text information into clauses; generating the corresponding pinyin codes for the clauses; and inputting the Pinyin codes into the preset deep learning model. The corresponding synthetic speech is obtained. Thus, the scheme of the invention can reduce the amount of text in the corpus and realize speech synthesis conveniently and quickly.

【技术实现步骤摘要】
一种语音合成的方法、装置、计算设备及计算机存储介质
本专利技术实施例涉及语音信号处理及语音合成
,特别是涉及一种语音合成的方法、装置、计算设备及计算机存储介质。
技术介绍
语音合成,又称文语转换技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。本专利技术的专利技术人在实现本专利技术的过程中,发现:现有技术中,语音合成技术通过词语直接匹配语音,所需的语料库会十分庞大。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音合成的方法、装置、计算设备及计算机存储介质。为解决上述技术问题,本专利技术实施例采用的一个技术方案是:提供一种语音合成的方法,包括:接收用户输入的文本信息;将所述文本信息拆分为分句;生成所述分句对应的拼音码;将所述拼音码输入预设深度学习模型中,得到相应的合成语音。其中,所述将所述文本信息拆分为分句包括:识别所述文本信息中的标点符号;根据所述标点符号位置将所述文本信息拆分为分句。其中,所述生成所述分句对应的拼音码,包括:使用预设分词算法将所述分句拆分为分词;识别所述分词中的多音字、数字及特殊字符;将所述数字及特殊字符按照读音转换为相应的汉字;使用预设语义理解算法确定所述多音字的读音,并按照读音将所述多音字转换为相应发音的其他汉字;将转换之后的分词合成为新的分句;使用预设生成算法将所述新的分句生成对应的拼音码。其中,所述预设深度学习模型是通过输入文本信息对应的拼音码及所述文本信息对应的语音训练出来的模型。本专利技术实施例采用的另一个技术方案是:提供一种语音合成装置,包括:接收模块:用于接收用户输入的文本信息;拆分模块:用于将所述文本信息拆分成分句;生成模块:用于生成所述分句对应的拼音码;合成模块:用于将所述拼音码输入预设深度学习模型中,得到相应的合成语音。其中,所述拆分模块包括:第一识别单元:用于识别所述文本信息中的标点符号;第一拆分单元:用于根据所述标点符号位置将所述文本信息拆分为分句。其中,所述生成模块包括:第二拆分单元:用于使用预设分词算法将所述分句拆分为分词;第二识别单元:用于识别所述分词中的多音字、数字及特殊字符;第一转换单元:用于将所述数字及特殊字符按照读音转换为相应的汉字;第二转换单元:用于使用预设语义理解算法确定所述多音字的读音,并按照读音将所述多音字转换为相应发音的其他汉字;合成单元:用于将转换之后的分词合成为新的分句;生成单元:用于使用预设生成算法将所述新的分句生成对应的拼音码。其中,所述合成模块中所述预设深度学习模型是通过输入文本信息对应的拼音码及所述文本信息对应的语音训练出来的模型。本专利技术实施例采用的再一个技术方案是:提供一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行所述的一种语音合成的方法对应的操作。本专利技术实施例采用的有一个技术方案是:提供一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行所述的一种语音合成的方法对应的操作。本专利技术实施例的有益效果是:区别于现有技术的情况,本专利技术实施例将文本信息转换为对应的拼音码,并使用深度学习模型得到相应的合成语音,从而精简了所需语料库以及语音录制工作;此外,将多音词使用语义理解算法确定发音,使语音合成更加准确。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施例。附图说明通过阅读下文优选实施例的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施例的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1是本专利技术实施例的一种语音合成的方法流程图;图2是本专利技术实施例的一种语音合成的方法中生成拼音码流程图;图3是本专利技术另一实施例的一种语音合成装置的功能框图;图4是本专利技术另一实施例的一种计算设备示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1为本专利技术一种语音合成的方法实施例的流程图。如图1所示,该方法包括以下步骤:步骤S101:接收用户输入的文本信息。在本步骤中,机器人接收用户输入的文本信息,所述文本信息是一段文字。步骤S102:将所述文本信息拆分为分句。在本步骤中,通过预设识别算法识别所述文本信息中的标点符号,如逗号、句号,根据所述标点符号所在的位置,将两个标点符号之间的语句定义为一个分句,所述文本信息拆分成若干个分句。步骤S103:生成所述分句对应的拼音码。在本步骤中,将所述分句生成对应的拼音,如:“将所述分句生成对应的拼音”,转化成对应的拼音码为“jiangsuoshufenjushengchengduiyingdepinyin”。步骤S104:将所述拼音码输入预设深度学习模型中,得到相应的合成语音。在本步骤中,所述预设深度学习模型是通过输入文本信息对应的拼音码及所述文本信息对应的语音训练出来的模型,在进行训练时,获取大量大文本信息及其对应的拼音码,并人为录制所属文本信息对应的语音,将所述文本信息对应的拼音码作为所述深度学习模型的输入,将其对应的梅尔频谱作为输出,设置网络相关参数进行网络训练,得到一个训练好的模型,其中,所述梅尔频谱经过声码器转换为对应的语音文件。在进行语音合成时,将拼音码作为训练好的深度学习模型的输入,即可得到对应的合成语音。本专利技术实施例通过将文本信息转换为对应的拼音码,并使用深度学习模型得到相应的合成语音,从而精简了所需语料库以及语音录制工作,提高了语音合成的效率。在一些实施例中,在生成分句对应的拼音码时,可以逐字生成,具体的,如图2所示,包括:步骤S201:使用预设分词算法将所述分句拆分为分词。在本步骤中,所述预设分词算法是现有技术中任意一种分词算法,使用所述算法,将所述分句拆分为若干个分词组合。步骤S202:识别所述分词中的多音字、数字及特殊字符。在本步骤中,所述特殊字符是指分词中区别于汉字和数字的其他特殊字符,如:ɑ、β。在本专利技术实施例中,在进行多音字、数字及特殊字符识别时,使用正则表达式区分,识别方法在本专利技术中不做限定。步骤S203:将所述数字及特殊字符按照读音转换为相应的汉字。在本步骤中,将所述数字及特殊字符按照通用读法转换为相应的汉字,如数字“1”,按照其通用读法转化为其对应的汉字“一”;特殊字符“ɑ”,按照其通用读法转化为其对应的汉字“阿尔法”。步骤S204:使用预设语义理解算法确定所述多音字的读音,并按照读音将所述多音字转换为相应发音的其他汉字。在本步骤中,所述预设语义理解算法为现有技术中任本文档来自技高网...

【技术保护点】
1.一种语音合成的方法,其特征在于,包括:接收用户输入的文本信息;将所述文本信息拆分为分句;生成所述分句对应的拼音码;将所述拼音码输入预设深度学习模型中,得到相应的合成语音。

【技术特征摘要】
1.一种语音合成的方法,其特征在于,包括:接收用户输入的文本信息;将所述文本信息拆分为分句;生成所述分句对应的拼音码;将所述拼音码输入预设深度学习模型中,得到相应的合成语音。2.根据权利要求1所述的方法,其特征在于,所述将所述文本信息拆分为分句包括:识别所述文本信息中的标点符号;根据所述标点符号位置将所述文本信息拆分为分句。3.根据权利要求1或2所述的方法,其特征在于,所述生成所述分句对应的拼音码,包括:使用预设分词算法将所述分句拆分为分词;识别所述分词中的多音字、数字及特殊字符;将所述数字及特殊字符按照读音转换为相应的汉字;使用预设语义理解算法确定所述多音字的读音,并按照读音将所述多音字转换为相应发音的其他汉字;将转换之后的分词合成为新的分句;使用预设生成算法将所述新的分句生成对应的拼音码。4.根据权利要求1-3任意一项所述的方法,其特征在于,所述预设深度学习模型是通过输入文本信息对应的拼音码及所述文本信息对应的语音训练出来的模型。5.一种语音合成装置,其特征在于,包括:接收模块:用于接收用户输入的文本信息;拆分模块:用于将所述文本信息拆分成分句;生成模块:用于生成所述分句对应的拼音码;合成模块:用于将所述拼音码输入预设深度学习模型中,得到相应的合成语音。6.根据权利要求5所述的装置,其特征在于,所述拆分模...

【专利技术属性】
技术研发人员:徐建明
申请(专利权)人:深圳前海达闼云端智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1