一种基于语音合成的情绪数据标注方法技术

技术编号:35095858 阅读:18 留言:0更新日期:2022-10-01 16:58
本发明专利技术涉及语音合成技术领域,尤其涉及一种基于语音合成的情绪数据标注方法。包括:获取语音数据源;对语音数据源进行预处理:通过对一句话完整性的把握,将语义连贯的句子进行切割,针对文本对应的语音数据,打上时间戳;对文本一致性和风格一致性进行校对;将音频对应的时间戳进行音频切分,产出音频单句;将产出的音频单句,进行音字韵律以及情绪层面的标注。本发明专利技术通过一级标签词、二级标签词和辅助用词的设计,可以实现几十种情绪词映射学习,全面提升情感表现力,使tts的声音更具温度,情感表现力更加自然丰富,与真人播讲进一步减小差距;能有效降低标注数据量,降低制作成本和复杂度,能够更快速的落地应用场景。能够更快速的落地应用场景。能够更快速的落地应用场景。

【技术实现步骤摘要】
一种基于语音合成的情绪数据标注方法


[0001]本专利技术涉及语音合成
,尤其涉及一种基于语音合成的情 绪数据标注方法。

技术介绍

[0002]从早期的语音合成开始发展至今,其应用场景经历了较大的转 变。过去语音合成应用主要用于简单的文本播报,场景相对单调,现 其应用场景更复杂更多样,智能助手、智能机器人、文字阅读等诸多 领域都能见到语音合成技术的身影。
[0003]如在有声阅读方面,用户需求越来越个性化;机场、车站广播等 服务业,甜美温柔的音质可以拉进与乘客间的距离,让乘客在繁忙的 旅途中感受到温暖;服务业客服场景下,人们倾向于声音更加热情、 亲切。如何让合成的声音听起来自然并富有情感,是语音合成领域的 一个主要发展方向。
[0004]随着语音合成技术的发展,语音合成(TTS)已经应用于生活中 的各个场景,实现在语音外呼、智能交互、内容生产、新闻播报等落 地,但现有语音合成存在着以下缺陷:
[0005]当前的tts相对来说比较成熟,但实际落地在业务场景上用户一 般都能够辨别出是否是合成音,由于合成的整体节奏韵律感还是对比 真人演绎来说相差很多,真人的朗读更多追求口气和情感的,而合成 的机械感和句与句之前的停顿节奏都比较固定和统一,情感表达不会 随着上下文的内容发生明显起伏。
[0006]人在表达时,会通过声音来传达出喜怒哀乐。比如在小说朗读中, 不同的语境不同的情景非常多,tts合成的声音无论是痛苦还是高兴 输出的情绪都非常中性,无法给人以带入感,整体的情感表现都是平 稳的。<br/>
技术实现思路

[0007]本专利技术的目的是提供一种基于语音合成的情绪数据标注方法,用 于解决现有技术问题:合成的声音都非常中性,无法给人以带入感。
[0008]为了实现上述目的,本专利技术采用了如下技术方案:
[0009]一种基于语音合成的情绪数据标注方法,包括以下步骤:
[0010]步骤1.获取语音数据源;
[0011]步骤2.对语音数据源进行预处理,包括以下步骤:
[0012]步骤2.1.通过对一句话完整性的把握,将语义连贯的句子 进行切割,针对文本对应的语音数据,打上时间戳;
[0013]步骤2.2.对文本一致性和风格一致性进行校对;
[0014]步骤2.3.将音频对应的时间戳进行音频切分,产出音频单 句;
[0015]步骤3.将产出的音频单句,进行音字韵律以及情绪层面的标注。
[0016]进一步地,步骤1获取方式为:
[0017]声纹录制,和/或,使用过往数据;
[0018]所述声纹录制包括以下步骤:
[0019]步骤1.1.1.制定录音计划、准备录音材料;
[0020]步骤1.1.2.确定录音环境和主播状态;
[0021]步骤1.1.3.录制形成最终录音整轨和对应文本;
[0022]所述使用过往数据包括以下步骤:
[0023]步骤1.2.1.调取录音主播以往的音频作品内容;
[0024]步骤1.2.2.人工转写或提供原始语料;
[0025]步骤1.2.3.产出对应音频的文本内容。
[0026]3.根据权利要求1所述的一种基于语音合成的情绪数据标注方 法,其特征在于,步骤2.1中,针对文本对应的语音数据,打上时间 戳,还包括:每句话前后保留500ms静音时长。
[0027]进一步地,步骤3中,音字韵律层面标注包括:
[0028]标出每句话文字的声韵母以及韵律层面的音标,并进行人工二次 校对。
[0029]进一步地,步骤3中,情绪层面标注包括:
[0030]步骤3.1.定义情绪分类,包括一级标签词、二级标签词和辅助 用词;二级词汇出现时必定与一级部分词汇存在绑定关系;
[0031]步骤3.2.将句子进行标签词的标注;
[0032]步骤3.3.将一句话依据一级标签词、二级标签词区分后,分析 各类标签词的情绪在当前句的占比,给出对应分值,并进行文本标注。
[0033]进一步地,所述一级标签词包括:疑惑、得意、紧张、喜悦、不 满、敷衍、失望、悲伤、欣慰、愤怒、惊讶、恐惧、无奈、嘲讽、自 然;
[0034]所述二级情绪词包括:疑问、激动、喜悦;
[0035]所述辅助用词包括:好奇、自信、骄傲、焦虑、紧急、开心、愉 快、高兴、赞叹、愉悦、满意、厌恶、不屑、忧愁、伤心、生气、胆 怯、害怕、恐慌、嘲笑、平静。
[0036]进一步地,所述分值为10分制分值。
[0037]本专利技术于现有技术相比较具备以下有益效果:
[0038]本专利技术通过一级标签词、二级标签词和辅助用词的设计,可以实 现几十种情绪词映射学习,全面提升情感表现力,使tts的声音更具 温度,情感表现力更加自然丰富,与真人播讲进一步减小差距,大大 增加代入感;
[0039]本专利技术方法能有效降低标注数据量,降低制作成本和复杂度,能 够更快速的落地应用场景。
附图说明
[0040]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述 中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图 是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创 造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041]图1为数据源获取的示意图;
[0042]图2为数据预处理示意图;
[0043]图3为数据标注示意图;
[0044]图4为音字韵律标注示例图。
具体实施方式
[0045]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合 附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描 述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0046]本专利技术为一种基于语音合成的情绪数据标注方法。
[0047]本专利技术方法包括以下步骤:
[0048]1.数据源获取,具体请参阅图1。
[0049]获取的形式有两种:声纹录制、过往数据使用
[0050]1.1.声纹录制:制定录音计划(人员、时间、地点等),准备录 制前的相关语料,提供给已确认的主播,确认主播时间和身体情况是 否满足录制要求,检查设备达到录制技术要求;录制时尽量完整的表 达语料内容,避免环境噪音和自身的唇齿音等。录音语料内容不同时, 朗读起来会难易有别,指导主播采取先易后难的录音策略,令其逐渐 进人状态。形成最终录音整轨和对应文本,进行后续数据处理。
[0051]1.2.过往数据使用:通过主播以往的音频作品内容,进行人工转 写或提供原始语料,经过校对后,产出对应音频的文本内容,进行后 续数据处理
[0052]2.数据预处理,具体请参阅图2
[0053]在进入数据标注前,对数据源进行脚本和人工的预先处理,保证 内容的干净以及减少正式制作时反复确认无效内容的操作。
[0054]2.1.通过数据源拿到的是音频和对应文本,首先需对句子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音合成的情绪数据标注方法,其特征在于,包括以下步骤:步骤1.获取语音数据源;步骤2.对语音数据源进行预处理,包括以下步骤:步骤2.1.通过对一句话完整性的把握,将语义连贯的句子进行切割,针对文本对应的语音数据,打上时间戳;步骤2.2.对文本一致性和风格一致性进行校对;步骤2.3.将音频对应的时间戳进行音频切分,产出音频单句;步骤3.将产出的音频单句,进行音字韵律以及情绪层面的标注。2.根据权利要求1所述的一种基于语音合成的情绪数据标注方法,其特征在于,步骤1获取方式为:声纹录制,和/或,使用过往数据;所述声纹录制包括以下步骤:步骤1.1.1.制定录音计划、准备录音材料;步骤1.1.2.确定录音环境和主播状态;步骤1.1.3.录制形成最终录音整轨和对应文本;所述使用过往数据包括以下步骤:步骤1.2.1.调取录音主播以往的音频作品内容;步骤1.2.2.人工转写或提供原始语料;步骤1.2.3.产出对应音频的文本内容。3.根据权利要求1所述的一种基于语音合成的情绪数据标注方法,其特征在于,步骤2.1中,针对文本对应的语音数据,打上时间戳,还包括:每句话前后保留500ms静音时长。4...

【专利技术属性】
技术研发人员:李素贞李骁肖朔
申请(专利权)人:杭州倒映有声科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1