网页端音频生成方法、装置、存储介质制造方法及图纸

技术编号：25040538 阅读：16 留言：0更新日期：2020-07-29 05:31

本发明专利技术涉及音频处理技术领域，公开了一种网页端音频生成方法，用于将网页端的文本转换为能够在网页端播放的音频，包括：接收文本信息，并将文本信息发送至文本转语音服务器；接收文本转语音服务器分段返回的与文本信息对应的若干个分段音频流；构建音频输出流；以及在音频输出流中输入波形音频文件格式wav头信息，并依次输入若干个分段音频流。本发明专利技术在接收到网页端的文本信息后，新建音频输出流，在音频输出流中输入wav头信息，并依次输入采用语音转文本服务器所转换的分段音频流，如此，可以直接在网页端将音频流作为wav格式的音频进行播放，使得网页端用户能够收听高质量的音频，并减少音频生成的等待时间，此外，还避免了在网页端部署PCM播放器。

全部详细技术资料下载

【技术实现步骤摘要】
网页端音频生成方法、装置、存储介质
本专利技术涉及音频处理
，具体地涉及一种网页端音频生成方法、装置、存储介质。
技术介绍
TTS(TextToSpeech，从文本到语音)技术被广泛用于在线语音生成和播放，从短语生成到文章阅读具有较为广泛的应用需求。例如：将网页端文本转换为音频进行播放。TTS在短语生成方面的技术应用已经较为成熟，但是对于长文章的处理，TTS处理完成后还需要将所生成的音频传输至网页端，不仅需要完成长文章从文本到音频的转换，还需要考虑网页端用户在线等待音频生成的时间问题。目前支持网页端直接播放的音频格式包括wav(WaveformAudioFileFormat，波形音频文件格式，是微软与IBM公司所开发的在个人电脑存储音频流的编码格式)和mp3(MovingPictureExpertsGroupAudioLayerIII，简称mp3音频)。但是若将完整的长文章从文本转换成网页端支持播放的音频格式，并传输至网页端，则无论是采用wav格式还是mp3格式的音频格式，均会给网页端用户带来较长等待时间，从而影响用户体验。
技术实现思路
为了解决或至少部分解决上述技术问题，本专利技术实施例提供了一种网页端音频生成方法及生成装置。根据本专利技术实施例的第一方面，提供一种网页端音频生成方法，用于将网页端的文本转换为能够在网页端播放的音频，所述方法包括：接收文本信息，并将所述文本信息发送至文本转语音服务器；接收所述文本转语音服务器分段返回的与所述文本信息对应的若干个分段音频流；构建音频输...

【技术保护点】
1.一种网页端音频生成方法，其特征在于，用于将网页端的文本转换为能够在网页端播放的音频，所述方法包括：/n接收文本信息，并将所述文本信息发送至文本转语音服务器；/n接收所述文本转语音服务器分段返回的与所述文本信息对应的若干个分段音频流；/n构建音频输出流；以及/n在所述音频输出流中输入波形音频文件格式wav头信息，并依次输入若干个所述分段音频流。/n

【技术特征摘要】
1.一种网页端音频生成方法，其特征在于，用于将网页端的文本转换为能够在网页端播放的音频，所述方法包括：
接收文本信息，并将所述文本信息发送至文本转语音服务器；
接收所述文本转语音服务器分段返回的与所述文本信息对应的若干个分段音频流；
构建音频输出流；以及
在所述音频输出流中输入波形音频文件格式wav头信息，并依次输入若干个所述分段音频流。

2.根据权利要求1所述的网页端音频生成方法，其特征在于，所述接收文本信息和所述将所述文本信息发送至文本转语音服务器均采用超文本传输协议HTTP进行传输。

3.根据权利要求1所述的网页端音频生成方法，其特征在于，所述在所述音频输出流中输入波形音频文件格式wav头信息，包括：
监测是否为第一次接收到所述分段音频流；以及
在第一次接收到所述分段音频流时，在所述音频输出流中输入波形音频文件格式wav头信息。

4.根据权利要求3所述的网页端音频生成方法，其特征在于，所述监测是否为第一次接收到所述分段音频流，包括：
监测所述音频输出流的当前状态是否为空；以及
在所述音频输出流的当前状态为空时，确认为第一次接收到所述分段音频流。

5.根据权利要求1所述的网页端音频生成方法，其特征在于，所述分段音频流为脉冲编码调制PCM格式的音频流。

6.一种网页端音频生成装置，其特征在于，所述网页端音频生成装置包括：
文本传输模块...

【专利技术属性】
技术研发人员：郁霖，雷欣，李志飞，
申请(专利权)人：问问智能信息科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人