一种数据标注方法、装置、设备及可读存储介质制造方法及图纸

技术编号：30141765 阅读：26 留言：0更新日期：2021-09-23 15:06

本申请公开了一种数据标注方法、装置、设备及可读存储介质。本申请在获取到相互对应的音频数据和文本数据后，将音频数据用音频波形图和基频线图表示，然后识别音频数据中的静音片段和音高重置片段；最后将静音片段在文本数据中对应的文本标注为语调短语，将音高重置片段在文本数据中对应的文本标注为韵律短语，从而标注出了文本中的自然语感和韵律，据此训练TTS模型，可以使TTS模型学习人说话时的自然语感和韵律，避免TTS模型输出的语音机械感较重。相应地，本申请提供的一种数据标注装置、设备及可读存储介质，也同样具有上述技术效果。也同样具有上述技术效果。也同样具有上述技术效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据标注方法、装置、设备及可读存储介质

[0001]本申请涉及计算机
，特别涉及一种数据标注方法、装置、设备及可读存储介质。

技术介绍

[0002]目前，通过标注文本中的介词、代词、双音节词、三音节词来训练TTS(Text To Speech)模型，据此训练得到的TTS模型输出的语音机械感较重，即比较生硬，不能模拟人说话时所具有的自然语感和韵律。
[0003]因此，如何使TTS模型学习人说话时的自然语感和韵律，是本领域技术人员需要解决的问题。

技术实现思路

[0004]有鉴于此，本申请的目的在于提供一种数据标注方法、装置、设备及可读存储介质，以使TTS模型学习人说话时的自然语感和韵律。其具体方案如下：
[0005]第一方面，本申请提供了一种数据标注方法，包括：
[0006]获取音频数据，以及所述音频数据对应的文本数据；
[0007]确定所述音频数据对应的音频波形图和基频线图；
[0008]基于所述音频波形图确定所述音频数据中的静音片段，基于所述基频线图确定所述...

【技术保护点】

【技术特征摘要】
1.一种数据标注方法，其特征在于，包括：获取音频数据，以及所述音频数据对应的文本数据；确定所述音频数据对应的音频波形图和基频线图；基于所述音频波形图确定所述音频数据中的静音片段，基于所述基频线图确定所述音频数据中的音高重置片段；将所述静音片段在所述文本数据中对应的文本标注为语调短语，将所述音高重置片段在所述文本数据中对应的文本标注为韵律短语。2.根据权利要求1所述的方法，其特征在于，所述确定所述音频数据对应的音频波形图和基频线图，包括：将所述音频数据输入语音分析工具，以输出所述音频波形图和所述基频线图。3.根据权利要求1所述的方法，其特征在于，所述基于所述音频波形图确定所述音频数据中的静音片段，基于所述基频线图确定所述音频数据中的音高重置片段，包括：利用图像识别技术识别所述音频波形图中的静音区域，以及所述基频线图中的线中断区域；将所述静音区域在所述音频数据中对应的音频段确定为所述静音片段，将所述线中断区域在所述音频数据中对应的音频段确定为所述音高重置片段。4.根据权利要求3所述的方法，其特征在于，所述图像识别技术包括用于图像识别的机器学习模型、算法或图像库。5.根据权利要求1所述的方法，其特征在于，...

【专利技术属性】
技术研发人员：陈百灵，刘云峰，汶林丁，
申请(专利权)人：深圳追一科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人