一种数据收集方法技术

技术编号:39589577 阅读:9 留言:0更新日期:2023-12-03 19:42
本公开涉及一种数据收集方法

【技术实现步骤摘要】
一种数据收集方法、装置、电子设备和存储介质


[0001]本公开涉及语音
,尤其涉及一种数据收集方法

装置

电子设备和存储介质


技术介绍

[0002]语音合成
(Text

to

Speech

TTS)
技术是将文字转化为语音的一种技术

在商用
TTS
系统发布前,通常会针对应用场景做大量优化测试,以确保合成结果正确

目前通常是由企业内部人员针对特定场景采集有限数据集作为
TTS
系统的优化数据

[0003]这种数据采集方式存在以下缺点:一是使得测试具有局限性,在有限数据集下进行测试,会使得通用的
TTS
系统经常有难以发现的坏例
(bad case)
,导致用户使用时合成结果不准确;二是反馈链路长,无法及时收集到用户发现的
bad case
;三是优化周期长,如果没有发现大量
bad case
,很难在
TTS
系统的一次迭代里解决大量问题


技术实现思路

[0004]有鉴于此,本公开提出了一种数据收集方法

装置

电子设备和存储介质,可以基于对用户交互动作的分析收集
TTS
系统的优化数据,及时收集到用户侧产生的数据,从而可以对
TTS
系统进行快速优化;可以从真实应用场景中过滤出数据,使得收集到的数据更贴合应用场景,从而可以快速地提升
TTS
系统的鲁棒性

[0005]根据本公开的一方面,提供了一种数据收集方法,应用于语音合成
TTS
系统,所述方法包括:根据初始输入的第一文本数据,生成第一音频数据;响应于所述第一文本数据对应的至少一次调整操作,得到调整后的第二文本数据;根据所述第二文本数据,生成第二音频数据;在所述调整操作的结果表明用户对所述第一音频数据不满意的情况下,利用第一数据和
/
或第二数据得到用于训练所述
TTS
系统的数据集;其中,所述第一数据包括所述第一文本数据和所述第一音频数据;所述第二数据包括所述第二文本数据和所述第二音频数据

[0006]在一种可能的实现方式中,所述调整操作的结果包括所述第一文本数据和所述第二文本数据的文本数据相似度;在所述调整操作的结果表明用户对所述第一音频数据不满意的情况下,利用第一数据和
/
或第二数据得到用于训练所述
TTS
系统的数据集,包括:在所述文本数据相似度高于相似度阈值的情况下,利用所述第一数据和
/
或所述第二数据得到所述数据集;所述文本数据相似度为所述第一文本数据和所述第二文本数据的相似度

[0007]在一种可能的实现方式中,所述调整操作的结果包括发音调整和
/
或停顿调整;在所述调整操作的结果表明用户对所述第一音频数据不满意的情况下,利用第一数据和
/
或第二数据得到用于训练所述
TTS
系统的数据集,包括:在所述调整操作的结果包括发音调整和
/
或停顿调整的情况下,利用所述第一数据和
/
或所述第二数据得到所述数据集

[0008]在一种可能的实现方式中,所述响应于所述第一文本数据对应的至少一次调整操作,得到调整后的第二文本数据,包括:在检测到调整操作的情况下,基于调整操作对所述
第一文本数据进行调整处理,直至得到所述第二文本数据;其中,所述调整处理包括:确定目标文本数据;所述目标文本数据为第一文本数据或中间文本数据,所述中间文本数据为对所述第一文本数据执行至少一次调整操作后得到的文本数据;基于所述调整操作和所述目标文本数据,得到新的中间文本数据;响应于满足调整结束条件,将中间文本数据确定为第二文本数据

[0009]在一种可能的实现方式中,所述基于所述调整操作和所述目标文本数据,得到新的中间文本数据,包括:获取提交操作,并利用所述提交操作得到对应的输入文本数据;响应于所述输入文本数据与所述目标文本数据的相似度高于第一预设阈值,和
/
或,所述操作前后对应的两个文本数据之间的编辑距离低于第二预设阈值,确定所述提交操作为调整操作,确定所述输入文本数据为新的中间文本数据

[0010]在一种可能的实现方式中,所述响应于满足调整结束条件,包括:获取提交操作,并利用所述提交操作得到对应的输入文本数据;响应于所述输入文本数据与所述目标文本数据的相似度低于第一预设阈值,和
/
或,所述操作前后对应的两个文本数据之间的编辑距离高于第二预设阈值,确定满足所述调整结束条件;或,响应于预设时间间隔内未获取到提交操作,确定满足所述调整结束条件

[0011]在一种可能的实现方式中,所述方法还包括:从所述数据集中获取目标用户标识对应的至少一个目标用户数据;根据所述目标用户数据,对所述
TTS
系统进行训练,得到适用于所述目标用户标识的目标
TTS
系统

[0012]在一种可能的实现方式中,所述方法还包括:对所述数据集中的数据进行共性分析,得到共性分析结果;根据所述共性分析结果,从所述数据集中获取多个共性数据;根据所述共性数据,对所述
TTS
系统进行训练

[0013]根据本公开的另一方面,提供了一种数据收集装置,所述装置包括:第一生成模块,用于根据初始输入的第一文本数据,生成第一音频数据;调整模块,用于响应于所述第一文本数据对应的至少一次调整操作,得到调整后的第二文本数据;第二生成模块,用于根据所述第二文本数据,生成第二音频数据;数据集获取模块,用于在所述调整操作的结果表明用户对所述第一音频数据不满意的情况下,利用第一数据和
/
或第二数据得到用于训练
TTS
系统的数据集;其中,所述第一数据包括所述第一文本数据和所述第一音频数据;所述第二数据包括所述第二文本数据和所述第二音频数据

[0014]在一种可能的实现方式中,所述调整操作的结果包括所述第一文本数据和所述第二文本数据的文本数据相似度;所述数据集获取模块,还用于:在所述文本数据相似度高于相似度阈值的情况下,利用所述第一数据和
/
或所述第二数据得到所述数据集;所述文本数据相似度为所述第一文本数据和所述第二文本数据的相似度

[0015]在一种可能的实现方式中,所述调整操作的结果包括发音调整和
/
或停顿调整;所述数据集获取模块,还用于:在所述调整操作的结果包括发音调整和
/
或停顿调整的情况下,利用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据收集方法,其特征在于,应用于语音合成
TTS
系统,所述方法包括:根据初始输入的第一文本数据,生成第一音频数据;响应于所述第一文本数据对应的至少一次调整操作,得到调整后的第二文本数据;根据所述第二文本数据,生成第二音频数据;在所述调整操作的结果表明用户对所述第一音频数据不满意的情况下,利用第一数据和
/
或第二数据得到用于训练所述
TTS
系统的数据集;其中,所述第一数据包括所述第一文本数据和所述第一音频数据;所述第二数据包括所述第二文本数据和所述第二音频数据
。2.
根据权利要求1所述的方法,其特征在于,所述调整操作的结果包括所述第一文本数据和所述第二文本数据的文本数据相似度;在所述调整操作的结果表明用户对所述第一音频数据不满意的情况下,利用第一数据和
/
或第二数据得到用于训练所述
TTS
系统的数据集,包括:在所述文本数据相似度高于相似度阈值的情况下,利用所述第一数据和
/
或所述第二数据得到所述数据集;所述文本数据相似度为所述第一文本数据和所述第二文本数据的相似度
。3.
根据权利要求1或2所述的方法,其特征在于,所述调整操作的结果包括发音调整和
/
或停顿调整;在所述调整操作的结果表明用户对所述第一音频数据不满意的情况下,利用第一数据和
/
或第二数据得到用于训练所述
TTS
系统的数据集,包括:在所述调整操作的结果包括发音调整和
/
或停顿调整的情况下,利用所述第一数据和
/
或所述第二数据得到所述数据集
。4.
根据权利要求1所述的方法,其特征在于,所述响应于所述第一文本数据对应的至少一次调整操作,得到调整后的第二文本数据,包括:在检测到调整操作的情况下,基于调整操作对所述第一文本数据进行调整处理,直至得到所述第二文本数据;其中,所述调整处理包括:确定目标文本数据;所述目标文本数据为所述第一文本数据或中间文本数据,所述中间文本数据为对所述第一文本数据执行至少一次调整操作后得到的文本数据;基于所述调整操作和所述目标文本数据,得到新的中间文本数据;响应于满足调整结束条件,将所述中间文本数据确定为所述第二文本数据
。5.
根据权利要求4所述的方法,其特征在于,所述基于所述调整操作和所述目标文本数据,得到新的中间文本数据,包括:获...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:摩尔线程智能科技北京有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1