语音合成播报方法、装置、设备及计算机可读介质制造方法及图纸

技术编号:20285838 阅读:22 留言:0更新日期:2019-02-10 18:08
本发明专利技术提出一种语音合成播报方法、装置、设备和计算机可读介质。所述方法包括:接收多个发音人的录音数据;提取每个发音人的录音数据的文本特征,并分别对多个发音人进行身份标识;将所述文本特征和发音人的身份标识输入至文本‑声学的映射模型,输出语音特征,并建立发音人的文本特征与语音特征的映射关系。本发明专利技术实施例可以通过对多个录音人进行混合建模,从而可以多人共享训练数据,从而快速建立文本和声学之间的映射关系。另外,本发明专利技术实施例还可以根据当前场景信息选择播报发音人,极大提升文本播报的体验。

Speech synthesis broadcasting method, device, equipment and computer readable medium

The invention provides a speech synthesis broadcasting method, device, equipment and computer readable medium. The method includes: receiving the recording data of multiple speakers; extracting the text features of each speaker's recording data and identifying multiple speakers separately; inputting the text features and the speaker's identity into the text-acoustic mapping model, outputting the voice features, and establishing the mapping relationship between the text features and the voice features of the speaker. The embodiment of the present invention can quickly establish the mapping relationship between text and acoustics by mixing multiple recorders to model, so that training data can be shared by multiple people. In addition, the embodiment of the present invention can also select a broadcaster according to the current scene information, greatly improving the experience of text broadcasting.

【技术实现步骤摘要】
语音合成播报方法、装置、设备及计算机可读介质
本专利技术涉及互联网
,尤其涉及一种语音合成播报方法及装置、设备和计算机可读介质。
技术介绍
语音合成将待合成的文字转换成语音,已经广泛应用在小说朗读、新闻播报、地图导航播报、智能音箱交互等语音播报的产品。现在的语音合成技术提供一个新的合成声音的流程是:根据应用场景选择一个适合的发音人,发音人录音以及录音数据的标注,数据建模以及音库制作,上线到产品中提供合成服务。对于当前制作的发音人来说,为了得到好的语音合成效果,需要录制大量的高质量语音数据,比如一个典型的通用合成音库需要包含有效语音时长在30小时以上的语音,这些语音需要做精准的标注和检查,这导致制作一款合成音库人力成本、时间成本和经济成本都很高。同时,由于现有技术在音库录制、标注和建模上是串行的,即只能一个一个的制作,而合成音库的制作特点是对发音人、录音和标注都有很高的要求,这导致制作一款合成音库耗时较长,比如一个10小时的典型音库从录音到提供服务需要半年到一年的时间。
技术实现思路
本专利技术实施例提供一种语音合成播报方法、装置、设备及计算机可读介质,以解决或缓解现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供了一种语音合成播报方法,包括:接收多个发音人的录音数据;提取每个发音人的录音数据的文本特征,并分别对多个发音人进行身份标识;将所述文本特征和发音人的身份标识输入至文本-声学的映射模型,输出语音特征,并建立发音人的文本特征与语音特征的映射关系。在一种实施方式中,所述文本特征包括:音子、声调、音子的停顿级别。在一种实施方式中,所述语音特征包括:语音频谱特征和基频特征。在一种实施方式中,该方法还包括:根据每个发音人的语音特征建立发音人身份标识与播报信息的映射关系,所述播报信息包括:播报音色、播报领域、用户人群中的一种或多种。在一种实施方式中,该方法还包括:根据当前播报信息选择对应的发音人对文本进行播报。在一种实施方式中,所述根据当前播报信息选择对应的发音人对文本进行播报,包括:获取当前播报信息;根据当前播报的信息匹配对应的发音人。第二方面,本专利技术实施例还提供了一种语音合成播报装置,包括:接收模块,用于接收多个发音人的录音数据;提取模块,用于提取每个发音人的录音数据的文本特征,并分别对多个发音人进行身份标识;映射模块,用于将所述文本特征和发音人的身份标识输入至文本-声学的映射模型,输出语音特征,并建立发音人的文本特征与语音特征的映射关系。在一种实施方式中,所述文本特征包括:音子、声调、音子的停顿级别。在一种实施方式中,所述语音特征包括:语音频谱特征和基频特征。在一种实施方式中,所述装置还包括:播报信息映射模块,用于根据每个发音人的语音特征建立发音人身份标识与播报信息的映射关系,所述播报信息包括:播报音色、播报领域、用户人群中的一种或多种。在一种实施方式中,该装置还包括播报模块,用于根据当前播报信息选择对应的发音人对文本进行播报。在一种实施方式中,所述播报模块包括:播报信息获取子模块,用于获取当前播报信息;匹配子模块,用于根据当前播报信息挑选对应的发音人。第三方面,在一个可能的设计中,语音合成播报装置的结构中包括处理器和存储器,所述存储器用于存储支持语音合成播报装置执行上述第一方面中语音合成播报方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述语音合成播报装置还可以包括通信接口,用于语音合成播报装置与其他设备或通信网络通信。第四方面,本专利技术实施例提供了一种计算机可读介质,用于存储语音合成播报装置所用的计算机软件指令,其包括用于执行上述第一方面的语音合成播报方法所涉及的程序。本专利技术实施例可以通过对多个录音人进行混合建模,从而可以多人共享训练数据,从而快速建立文本和声学之间的映射关系。另外,本专利技术实施例还可以根据当前场景信息选择播报发音人,极大提升文本播报的体验。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本专利技术公开的一些实施方式,而不应将其视为是对本专利技术范围的限制。图1为本专利技术一实施例的语音合成播报方法的流程图;图2为本专利技术另一实施例的语音合成播报方法的流程图;图3为本专利技术另一实施例的语音合成播报方法的流程图;图4为本专利技术一实施例的步骤S150的具体流程图;图5为本专利技术一实施例的语音合成播报装置的连接框图;图6为本专利技术一实施例的语音合成播报装置的连接框图;图7为本专利技术一实施例的语音合成播报装置的连接框图;图8为本专利技术一实施例的播报模块的连接框图;图9为本专利技术另一实施例的语音合成播报设备框图。具体实施方式在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本专利技术的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。本专利技术实施例主要提供了一种通语音合成播报的方法及装置,下面分别通过以下实施例进行技术方案的展开描述。本专利技术提供了一种语音合成播报方法和装置,以下详细介绍本专利技术实施例的语音合成播报方法和装置的具体处理流程和原理。如图1所示,其为本专利技术实施例的语音合成播报方法的流程图。本专利技术实施例的语音合成播报方法可以包括以下步骤:S110:接收多个发音人的录音数据。在一种实施方式中,通过多人小数据的录音方式替代现有的由单人大数据量录音方式。比如10个发音人每人录制1000句,每人录音文本不重复,10人录音文本总量达到一万句的水平,这样录音和标注的总量和传统技术的单一发音人相当,实际具有可操作性。S120:提取每个发音人的录音数据的文本特征,并分别对多个发音人进行身份标识。在录音完成后,先对录音数据的文本特征进行提取。根据时间尺度的长短,训练数据可以选择为句子,短语,词,音节,音子乃至更小的半音子。在一种实施例中,所述文本特征挑选音子、声调、音子的停顿级别。另外还分别对多个发音人进行身份标识,例如分别对每个发音人添加ID(identity,身份)特征。在训练数据中还加入发音人的ID特征,方便后续对发音人进行选择。S130:将所述文本特征和发音人的身份标识输入至文本-声学的映射模型,输出语音特征,并建立发音人的文本特征与语音特征的映射关系。在一种实施方式中,所述文本-声学模型的建模是由多人混合建模。首先在输入特征中除了传统的文本特征之外还加入发音人的ID特征,然后训练数据是多人数据的混合,这样学习得到的模型中由每一个发音人的文本到声学的映射关系。通过混合建模可以使多人共享训练数据中文本和声学之间的映射关系,即对某一个发音人来说,其建模结果使用了其他人的训练数据。在一种实施方式中,所述语音特征包括:语音频谱特征和基频特征,从而可以同一个发音人对不同文本进行播报。例如,基于深度神经网络中进行多人混合的声学建模,可以在不同发音人数据之间共享数据信息,使得最终单个发音人对应的模型可以获得其他发音人数据隐含的表征信息。本文档来自技高网...

【技术保护点】
1.一种语音合成播报方法,其特征在于,包括:接收多个发音人的录音数据;提取每个发音人的录音数据的文本特征,并分别对多个发音人进行身份标识;将所述文本特征和发音人的身份标识输入至文本‑声学的映射模型,输出语音特征,并建立发音人的文本特征与语音特征的映射关系。

【技术特征摘要】
1.一种语音合成播报方法,其特征在于,包括:接收多个发音人的录音数据;提取每个发音人的录音数据的文本特征,并分别对多个发音人进行身份标识;将所述文本特征和发音人的身份标识输入至文本-声学的映射模型,输出语音特征,并建立发音人的文本特征与语音特征的映射关系。2.根据权利要求1所述的方法,其特征在于,所述文本特征包括:音子、声调、音子的停顿级别。3.根据权利要求1所述的方法,其特征在于,所述语音特征包括:语音频谱特征和基频特征。4.根据权利要求1所述的方法,其特征在于,该方法还包括:根据每个发音人的语音特征建立发音人身份标识与播报信息的映射关系,所述播报信息包括:播报音色、播报领域、用户人群中的一种或多种。5.根据权利要求4所述的方法,其特征在于,该方法还包括:根据当前播报信息选择对应的发音人对文本进行播报。6.根据权利要求5所述的方法,其特征在于,所述根据当前播报信息选择对应的发音人对文本进行播报,包括:获取当前播报信息;根据当前播报的信息匹配对应的发音人。7.一种语音合成播报装置,其特征在于,包括:接收模块,用于接收多个发音人的录音数据;提取模块,用于提取每个发音人的录音数据的文本特征,并分别对多个发音人进行身份标识;映射模块,用于将所述文本特征和发音人的身份标识输入至文本...

【专利技术属性】
技术研发人员:康永国
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1