生成音频数据的方法和装置制造方法及图纸

技术编号：17996762 阅读：97 留言：0更新日期：2018-05-19 13:43

本发明专利技术实施例公开了一种生成音频数据的方法和装置，属于文语转换领域。所述方法包括：将目标文本转换为多个声学特征单元；基于每个声学特征单元，生成所述每个声学特征单元对应的音频数据单元；复用目标内存区域，根据所述目标文本的多个音频数据单元，生成多个子音频数据，其中，每次在所述目标内存区域中写入预设数目的音频数据单元以得到子音频数据；每生成一个子音频数据，将所述子音频数据写入存储器；对所述存储器中所写入的多个子音频数据进行合并，得到所述目标文本对应的目标音频数据。采用本发明专利技术，可以减少内存占用量。

全部详细技术资料下载

【技术实现步骤摘要】
生成音频数据的方法和装置
本专利技术涉及文语转换领域，特别涉及一种生成音频数据的方法和装置。
技术介绍
随着TTS(TextToSpeech，文本转换到语音)技术的发展，电子设备可以实现将文本数据转换为音频数据，进而，可以将文本对应的语音播放出来，丰富了人们的阅读方式。在实现的过程中，电子设备可以在内存中申请一个缓冲区，并将该缓冲区中的数据初始化为全0。当电子设备将文本数据转换为音频数据时，可以按照固定的时间间隔往缓冲区中写入音频数据，并利用一个计数器统计写入的音频数据的长度。在文本数据全部转换为音频数据之后，电子设备可以按照计数器统计的数据长度向存储器或硬盘中写入完整的音频数据。在实现本专利技术的过程中，专利技术人发现现有技术至少存在以下问题：为了保证音频的叠加完整性以及相位连续性，缓冲区中需要写入完整的音频数据，因此，电子设备在内存中申请的缓冲区的长度必须足够长，一般来说，这个长度会在100Mb(Mbit，兆比特)到300Mb之间，对内存占用量较高，可能影响电子设备的正常运行。
技术实现思路
为了解决现有技术的问题，本专利技术实施例提供了一种生成音频数据的方法和装...
生成音频数据的方法和装置

【技术保护点】
一种生成音频数据的方法，其特征在于，所述方法包括：将目标文本转换为多个声学特征单元；基于每个声学特征单元，生成所述每个声学特征单元对应的音频数据单元；复用目标内存区域，根据所述目标文本的多个音频数据单元，生成多个子音频数据，其中，每次在所述目标内存区域中写入预设数目的音频数据单元以得到子音频数据；每生成一个子音频数据，将所述子音频数据写入存储器；对所述存储器中所写入的多个子音频数据进行合并，得到所述目标文本对应的目标音频数据。

【技术特征摘要】
1.一种生成音频数据的方法，其特征在于，所述方法包括：将目标文本转换为多个声学特征单元；基于每个声学特征单元，生成所述每个声学特征单元对应的音频数据单元；复用目标内存区域，根据所述目标文本的多个音频数据单元，生成多个子音频数据，其中，每次在所述目标内存区域中写入预设数目的音频数据单元以得到子音频数据；每生成一个子音频数据，将所述子音频数据写入存储器；对所述存储器中所写入的多个子音频数据进行合并，得到所述目标文本对应的目标音频数据。2.根据权利要求1所述的方法，其特征在于，所述复用目标内存区域，根据所述目标文本的多个音频数据单元，生成多个子音频数据，包括：将目标内存区域初始化；每生成预设数目的音频数据单元时，将所述预设数目的音频数据单元写入所述目标内存区域，得到一个子音频数据，重复上述过程，直到最后一个音频数据单元写入所述目标内存区域为止，得到所述多个子音频数据。3.根据权利要求2所述的方法，其特征在于，所述得到一个子音频数据之后，还包括：如果所述目标内存区域写满时，所述预设数目的音频数据单元中的最后一个音频数据单元还未写入完毕，则将未写入内存的数据作为尾帧音频数据；将所述尾帧音频数据写入所述目标内存区域的起始位置；基于下一组预设数目的音频数据单元继续执行写入所述目标内存区域的步骤。4.根据权利要求3所述的方法，其特征在于，所述基于下一组预设数目的音频数据单元继续执行写入所述目标内存区域的步骤，包括：将下一组预设数目的音频数据单元中第一个音频数据单元的起始相位设置为0，基于所述尾帧音频数据的基频成分，重新确定所述第一个音频数据单元的相位；以所述目标内存区域的预设位置为起始，写入所述下一组预设数目的音频数据单元，得到一个子音频数据。5.根据权利要求3所述的方法，其特征在于，所述对所述存储器中所写入的多个子音频数据进行合并，得到所述目标文本对应的目标音频数据，包括：将所述存储器中所写入的多个子音频数据按照先后顺序拼接，得到所述目标文本对应的目标音频数据。6.根据权利要求1所述的方法，其特征在于，所述将目标文本转换为多个声学特征单元，包括：当接收到目标文本时，按照文本内容的顺序，将所述目标文本转换为多个声学特征单元；或当接收到目标文本时，向服务器发送所述目标文本，接收所述服务器发送的所述目标文本对应的多个声学特征单元。7.一种生成音频数据的装置，其特征在于，所述装置包括：转换模块，用于将目标文本...

【专利技术属性】
技术研发人员：李为，李科，吴永坚，
申请(专利权)人：腾讯科技深圳有限公司，腾讯云计算北京有限责任公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人