歌唱合成数据的标注方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:39036351 阅读:14 留言:0更新日期:2023-10-10 11:49
本公开涉及计算机处理技术领域,公开了歌唱合成数据的标注方法、装置、计算机设备及存储介质,本公开提供的方法包括,获取样本音频以及样本音频的歌词文本内容,其中语音内容是通过预设插件预标注得到的;基于样本音频的时间信息,在同一界面显示语音内容以及样本音频;基于界面的显示信息,获取包括样本音频的语音内容、语音边界以及音乐信息的标注文件,语音边界是通过预设插件标注得到的,音乐信息是通过数字音频工作站得到的。利用样本音频的时间信息将样本音频与语音内容进行对齐,同时结合时间信息以及预设插件,在同一界面上显示语音内容以及样本音频,去除了重复标注歌词的环节,提高了歌唱合成数据的标注效率。提高了歌唱合成数据的标注效率。提高了歌唱合成数据的标注效率。

【技术实现步骤摘要】
歌唱合成数据的标注方法、装置、计算机设备及存储介质


[0001]本公开涉及计算机处理领域,具体涉及歌唱合成数据的标注方法、装置、计算机设备及存储介质。

技术介绍

[0002]歌唱合成(singing voice synthesis,SVS)是根据歌词和乐谱信息合成歌唱。在歌唱合成技术中,基于深度学习的歌唱语音合成方法是目前歌唱合成的主流方法,该方法使用深度神经网络替换了决策树聚类上下文相关的马尔科夫模型。由于该方法的合成歌声质量取决于训练数据,歌声合成数据的标注质量和效率成为歌声制作的瓶颈之一。由于歌唱合成数据的标注包括音乐和语音学信息,分别需要音乐背景和语言学背景的人员标注,流程复杂且校对困难,从而导致歌唱合成数据的标注效率较低。

技术实现思路

[0003]有鉴于此,本公开提供了一种歌唱合成数据的标注方法、装置、计算机设备及存储介质,以解决标注效率较低的问题。
[0004]第一方面,本公开提供了一种歌唱合成数据的标注方法,所述方法包括:
[0005]获取样本音频以及所述样本音频的歌词文本内容,所述歌词文本内容是通过预设插件标注得到的;
[0006]基于所述样本音频的时间信息,在同一界面显示所述歌词文本内容以及所述样本音频;
[0007]基于所述界面的显示信息,获取包括所述样本音频的歌词文本内容、语音边界以及音乐信息的标注文件,所述语音边界是通过所述预设插件标注得到的,所述音乐信息通过数字音频工作站得到的。
[0008]第二方面,本公开提供了一种歌唱合成数据的标注装置,所述装置包括:
[0009]第一获取模块,用于获取样本音频以及所述样本音频的歌词文本内容,所述歌词文本内容是通过预设插件标注得到的;
[0010]显示模块,用于基于所述样本音频的时间信息,在同一界面显示所述歌词文本内容以及所述样本音频;
[0011]第二获取模块,用于基于所述界面的显示信息,获取包括所述样本音频的歌词文本内容、语音边界以及音乐信息的标注文件,所述语音边界是通过所述预设插件标注得到的,所述音乐信息通过数字音频工作站得到的。
[0012]第三方面,本公开提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的歌唱合成数据的标注方法。
[0013]第四方面,本公开提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的
歌唱合成数据的标注方法。
[0014]本公开实施例提供的歌唱合成数据的标注方法,利用样本音频的时间信息将样本音频与语音内容进行对齐,同时结合时间信息以及预设插件,在同一界面上显示歌词文本内容以及样本音频,去除了重复标注歌词的环节,实现音乐与语音标注的整合,提高了歌唱合成数据的标注效率。
附图说明
[0015]为了更清楚地说明本公开具体实施方式或相关技术中的技术方案,下面将对具体实施方式或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1是相关技术中歌唱合成数据的标注示意图;
[0017]图2是根据本公开实施例的一个歌唱合成数据的标注方法的流程示意图;
[0018]图3是根据本公开实施例的又一歌唱合成数据的标注方法的流程示意图;
[0019]图4是根据本公开实施例的再一歌唱合成数据的标注方法的流程示意图;
[0020]图5是根据本公开实施例的歌唱合成数据的标注示意图;
[0021]图6是根据本公开实施例的歌唱合成数据的标注装置的结构框图;
[0022]图7是本公开实施例的计算机设备的硬件结构示意图。
具体实施方式
[0023]为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0024]歌唱合成数据的标注信息分为音乐信息与语音信息,其中,音乐信息需要标注旋律、节奏和歌词,以产出乐谱文件,例如MusicXml文件。语音信息需标注演唱内容与语音边界信息,一般包括句子、字、音节、音素四层信息,以产出语言文件,例如TextGrid文件。
[0025]在相关技术中,如图1所示,歌唱合成数据的标注包括4个步骤,即语音信息标注,音乐信息标注,标注对齐以及标注数据清洗处理。具体地,语音信息标注包括内容标注与边界标注,内容标注包括文本标注、断句切分、音素精标三个步骤,准确标注实际演唱内容;边界标注用于对语音边界进行划分,也称为音素切分,准确标注实际演唱内容的时长信息。音乐信息标注包括乐器数字接口(Musical Instrument Digital Interface,简称MIDI)标注以及歌词标注,MIDI标注是用于标注实际演唱内容的音高以及节奏信息,歌词标注是用于标注实际演唱内容,仅到音节级别。标注对齐包括算法人员对齐MusicXml文件与TextGrid文件中共有的歌词信息跑出错误日志,以及音乐标注人员根据错误日志,对报出的地方进行人工判断与修改,保证两个文件共有信息完全一致。标注数据清洗处理是指算法人员从MusicXml文件与TextGrid文件分别提取音乐与语音的标注信息,整合成用于训练歌唱合成数据的标注文件。
[0026]在上述技术方案中,由于音乐信息和语音信息在标注阶段没有整合,导致音乐和
语音两批标注人员对彼此的标注内容不了解,标注错误率较高。为了实现音乐、语音标注信息的对齐,两方面人员均需标注歌词信息,造成工作量增加。在标注文件对齐阶段,标注人员需要打开两个软件,分别定位到错误乐句进行信息修改,这个阶段需要耗费大量人力,导致标注效率较低。
[0027]基于此,本公开实施例提供的歌唱合成数据的标注方法,通过预设插件与数字音频工作站(DAW)的配合,在标注阶段实现音乐信息与语音信息的整合,且音乐信息与语音信息(包括歌词文本内容以及语音边界)使用绝对时间进行对齐,从而无需进行两次歌词信息的标注,提高标注效率以及准确性。其中,数字音频工作站是用来录音、混音的音频处理软件。它基于计算机的数据处理能力,把计算机硬盘作为主要存储单元,使用音频卡或数字信号处理器,在软件的支持下,实现录音、编辑、播放、混音、压缩及音频信号可视化等功能。
[0028]根据本公开实施例,提供了一种歌唱合成数据的标注方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种歌唱合成数据的标注方法,其特征在于,所述方法包括:获取样本音频以及所述样本音频的歌词文本内容,所述歌词文本内容是通过预设插件进行预标注得到的;基于所述样本音频的时间信息,在同一界面显示所述歌词文本内容以及所述样本音频;基于所述界面的显示信息,获取包括所述样本音频的歌词文本内容、语音边界以及音乐信息的标注文件,所述语音边界是通过所述预设插件标注得到的,所述音乐信息通过数字音频工作站得到的。2.根据权利要求1所述的方法,其特征在于,所述基于所述样本音频的时间信息,在同一界面显示所述歌词文本内容以及所述样本音频,包括:在所述数字音频工作站的工程开头位置导入所述样本音频,并在所述样本音频的轨道上加载所述预设插件;将所述歌词文本内容与所述样本音频进行对齐显示。3.根据权利要求1所述的方法,其特征在于,所述基于所述界面的显示信息,获取包括所述样本音频的歌词文本内容、语音边界以及音乐信息的标注文件,包括:所述预设插件从所述数字音频工作站中读取播放时间;所述预设插件基于所述播放时间将所述歌词文本内容、语音边界以及所述音乐信息进行对齐显示。4.根据权利要求1所述的方法,其特征在于,所述基于所述界面的显示信息,获取包括所述样本音频的歌词文本内容、语音边界以及音乐信息的标注文件,包括:基于所述界面上显示的样本音频,获取所述预设插件对所述歌词文本内容进行音素边界的划分结果,得到所述语音边界;显示所述语音边界,并获取所述数字音频工作站对所述样本音频进行音乐信息的标注结果,得到所述音乐信息;输出包括所述歌词文本内容、所述语音边界以及所述音乐信息的标注文件。5.根据权利要求4所述的方法,其特征在于,所述基于所述界面上显示的样本音频,获取所述预设插件对所述歌词文本内容进行音素边界的划分结果,得到所述语音边界,包括:获取所述歌词文本内容的音素预标注;基于所述界面上显示的样本音频的频谱,获取所述预设插件对所述音素预标注的调整结果,得到所述语音边...

【专利技术属性】
技术研发人员:宋世奇朱清琳曹荣田煦春涂欣宇马泽君
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1