一种基于语音合成的情绪数据标注方法技术

技术编号：35095858 阅读：18 留言：0更新日期：2022-10-01 16:58

本发明专利技术涉及语音合成技术领域，尤其涉及一种基于语音合成的情绪数据标注方法。包括：获取语音数据源；对语音数据源进行预处理：通过对一句话完整性的把握，将语义连贯的句子进行切割，针对文本对应的语音数据，打上时间戳；对文本一致性和风格一致性进行校对；将音频对应的时间戳进行音频切分，产出音频单句；将产出的音频单句，进行音字韵律以及情绪层面的标注。本发明专利技术通过一级标签词、二级标签词和辅助用词的设计，可以实现几十种情绪词映射学习，全面提升情感表现力，使tts的声音更具温度，情感表现力更加自然丰富，与真人播讲进一步减小差距；能有效降低标注数据量，降低制作成本和复杂度，能够更快速的落地应用场景。能够更快速的落地应用场景。能够更快速的落地应用场景。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语音合成的情绪数据标注方法

[0001]本专利技术涉及语音合成
，尤其涉及一种基于语音合成的情绪数据标注方法。

技术介绍

[0002]从早期的语音合成开始发展至今，其应用场景经历了较大的转变。过去语音合成应用主要用于简单的文本播报，场景相对单调，现其应用场景更复杂更多样，智能助手、智能机器人、文字阅读等诸多领域都能见到语音合成技术的身影。
[0003]如在有声阅读方面，用户需求越来越个性化；机场、车站广播等服务业，甜美温柔的音质可以拉进与乘客间的距离，让乘客在繁忙的旅途中感受到温暖；服务业客服场景下，人们倾向于声音更加热情、亲切。如何让合成的声音听起来自然并富有情感，是语音合成领域的一个主要发展方向。
[0004]随着语音合成技术的发展，语音合成(TTS)已经应用于生活中的各个场景，实现在语音外呼、智能交互、内容生产、新闻播报等落地，但现有语音合成存在着以下缺陷：
[0005]当前的tts相对来说比较成熟，但实际落地在业务场景上用户一般都能够辨别出是否是合成音，由于合成的整体节奏韵律感还是对比真人演绎来说相差很多，真人的朗读更多追求口气和情感的，而合成的机械感和句与句之前的停顿节奏都比较固定和统一，情感表达不会随着上下文的内容发生明显起伏。
[0006]人在表达时，会通过声音来传达出喜怒哀乐。比如在小说朗读中，不同的语境不同的情景非常多，tts合成的声音无论是痛苦还是高兴输出的情绪都非常中性，无法给人以带入感，整体的情感表现都是平稳的。<...

【技术保护点】

【技术特征摘要】
1.一种基于语音合成的情绪数据标注方法，其特征在于，包括以下步骤：步骤1.获取语音数据源；步骤2.对语音数据源进行预处理，包括以下步骤：步骤2.1.通过对一句话完整性的把握，将语义连贯的句子进行切割，针对文本对应的语音数据，打上时间戳；步骤2.2.对文本一致性和风格一致性进行校对；步骤2.3.将音频对应的时间戳进行音频切分，产出音频单句；步骤3.将产出的音频单句，进行音字韵律以及情绪层面的标注。2.根据权利要求1所述的一种基于语音合成的情绪数据标注方法，其特征在于，步骤1获取方式为：声纹录制，和/或，使用过往数据；所述声纹录制包括以下步骤：步骤1.1.1.制定录音计划、准备录音材料；步骤1.1.2.确定录音环境和主播状态；步骤1.1.3.录制形成最终录音整轨和对应文本；所述使用过往数据包括以下步骤：步骤1.2.1.调取录音主播以往的音频作品内容；步骤1.2.2.人工转写或提供原始语料；步骤1.2.3.产出对应音频的文本内容。3.根据权利要求1所述的一种基于语音合成的情绪数据标注方法，其特征在于，步骤2.1中，针对文本对应的语音数据，打上时间戳，还包括：每句话前后保留500ms静音时长。4...

【专利技术属性】
技术研发人员：李素贞，李骁，肖朔，
申请(专利权)人：杭州倒映有声科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人