语音合成播报方法、装置、设备及计算机可读介质制造方法及图纸

技术编号：20285838 阅读：22 留言：0更新日期：2019-02-10 18:08

本发明专利技术提出一种语音合成播报方法、装置、设备和计算机可读介质。所述方法包括：接收多个发音人的录音数据；提取每个发音人的录音数据的文本特征，并分别对多个发音人进行身份标识；将所述文本特征和发音人的身份标识输入至文本‑声学的映射模型，输出语音特征，并建立发音人的文本特征与语音特征的映射关系。本发明专利技术实施例可以通过对多个录音人进行混合建模，从而可以多人共享训练数据，从而快速建立文本和声学之间的映射关系。另外，本发明专利技术实施例还可以根据当前场景信息选择播报发音人，极大提升文本播报的体验。

Speech synthesis broadcasting method, device, equipment and computer readable medium

The invention provides a speech synthesis broadcasting method, device, equipment and computer readable medium. The method includes: receiving the recording data of multiple speakers; extracting the text features of each speaker's recording data and identifying multiple speakers separately; inputting the text features and the speaker's identity into the text-acoustic mapping model, outputting the voice features, and establishing the mapping relationship between the text features and the voice features of the speaker. The embodiment of the present invention can quickly establish the mapping relationship between text and acoustics by mixing multiple recorders to model, so that training data can be shared by multiple people. In addition, the embodiment of the present invention can also select a broadcaster according to the current scene information, greatly improving the experience of text broadcasting.

全部详细技术资料下载

【技术实现步骤摘要】
语音合成播报方法、装置、设备及计算机可读介质
本专利技术涉及互联网
，尤其涉及一种语音合成播报方法及装置、设备和计算机可读介质。
技术介绍
语音合成将待合成的文字转换成语音，已经广泛应用在小说朗读、新闻播报、地图导航播报、智能音箱交互等语音播报的产品。现在的语音合成技术提供一个新的合成声音的流程是：根据应用场景选择一个适合的发音人，发音人录音以及录音数据的标注，数据建模以及音库制作，上线到产品中提供合成服务。对于当前制作的发音人来说，为了得到好的语音合成效果，需要录制大量的高质量语音数据，比如一个典型的通用合成音库需要包含有效语音时长在30小时以上的语音，这些语音需要做精准的标注和检查，这导致制作一款合成音库人力成本、时间成本和经济成本都很高。同时，由于现有技术在音库录制、标注和建模上是串行的，即只能一个一个的制作，而合成音库的制作特点是对发音人、录音和标注都有很高的要求，这导致制作一款合成音库耗时较长，比如一个10小时的典型音库从录音到提供服务需要半年到一年的时间。
技术实现思路
本专利技术实施例提供一种语音合成播报方法、装置、设备及计算机可读介质，以解决或缓解现有技术中的一个或多个技术问题。第一方面，本专利技术实施例提供了一种语音合成播报方法，包括：接收多个发音人的录音数据；提取每个发音人的录音数据的文本特征，并分别对多个发音人进行身份标识；将所述文本特征和发音人的身份标识输入至文本-声学的映射模型，输出语音特征，并建立发音人的文本特征与语音特征的映射关系。在一种实施方式中，所述文本特征包括：音子、声调、音子的停顿级别。在一种实施方式中，所述语音特征...

【技术保护点】
1.一种语音合成播报方法，其特征在于，包括：接收多个发音人的录音数据；提取每个发音人的录音数据的文本特征，并分别对多个发音人进行身份标识；将所述文本特征和发音人的身份标识输入至文本‑声学的映射模型，输出语音特征，并建立发音人的文本特征与语音特征的映射关系。

【技术特征摘要】
1.一种语音合成播报方法，其特征在于，包括：接收多个发音人的录音数据；提取每个发音人的录音数据的文本特征，并分别对多个发音人进行身份标识；将所述文本特征和发音人的身份标识输入至文本-声学的映射模型，输出语音特征，并建立发音人的文本特征与语音特征的映射关系。2.根据权利要求1所述的方法，其特征在于，所述文本特征包括：音子、声调、音子的停顿级别。3.根据权利要求1所述的方法，其特征在于，所述语音特征包括：语音频谱特征和基频特征。4.根据权利要求1所述的方法，其特征在于，该方法还包括：根据每个发音人的语音特征建立发音人身份标识与播报信息的映射关系，所述播报信息包括：播报音色、播报领域、用户人群中的一种或多种。5.根据权利要求4所述的方法，其特征在于，该方法还包括：根据当前播报信息选择对应的发音人对文本进行播报。6.根据权利要求5所述的方法，其特征在于，所述根据当前播报信息选择对应的发音人对文本进行播报，包括：获取当前播报信息；根据当前播报的信息匹配对应的发音人。7.一种语音合成播报装置，其特征在于，包括：接收模块，用于接收多个发音人的录音数据；提取模块，用于提取每个发音人的录音数据的文本特征，并分别对多个发音人进行身份标识；映射模块，用于将所述文本特征和发音人的身份标识输入至文本...

【专利技术属性】
技术研发人员：康永国，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人