标注数据获取方法和装置、电子设备以及存储介质制造方法及图纸

技术编号:39981112 阅读:31 留言:0更新日期:2024-01-09 01:32
本发明专利技术实施例提供一种标注数据获取方法和装置、电子设备以及存储介质。方法包括:获取源语言标注数据,源语言标注数据包括第一源语言文本、第二源语言文本和源语言标注信息,第一源语言文本中包括至少一个非标准化词,第二源语言文本为第一源语言文本经过文本规范化处理后获得的文本;将第一源语言文本和第二源语言文本分别从源语言翻译为目标语言,以获得与第一源语言文本对应的第一目标语言文本和与第二源语言文本对应的第二目标语言文本;至少基于源语言标注信息确定第一目标语言文本和第二目标语言文本所对应的目标语言标注信息,以获得目标语言标注数据。该方案可以提高目标语言标注数据获取的效率。

【技术实现步骤摘要】

本专利技术涉及语音合成,具体地,涉及一种标注数据获取方法、一种标注数据获取装置、一种电子设备和一种计算机可读存储介质。


技术介绍

1、文本规范化(textnormalization,tn)是语音合成(textto speech,简称tts)系统中很重要的一个环节,对于语音合成的语义理解至关重要。文本规范化是将一个非标准化词(non-standardwords,nsw)转化为朗读形式词(spoken-formwords,sfw),以消除歧义的过程,主要功能是将文本中的数字、符号、缩写等转换成语言文字。技术实现上一般是将tn系统拆分成标注器(tagger)和转换器(convertor)两部分,这两部分按照流水线(pipeline)执行。其中,标注器的主要作用是识别非标准化词的边界、类型等,而转换器则是基于标注器的标注结果进一步将非标准化词转换为朗读形式词。标注器和转换器可以基于模型和/或规则和/或函数等构建。

2、现有技术中,文本规范化方法通常都需要预先获取标注数据集以对文本规范化所采用的模型和/或规则和/或函数进行训练,尤其是对于采用模型的方案,本文档来自技高网...

【技术保护点】

1.一种标注数据获取方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,在所述至少基于所述源语言标注信息确定所述第一目标语言文本和所述第二目标语言文本所对应的目标语言标注信息,以获得目标语言标注数据之前,所述方法还包括:

3.如权利要求2所述的方法,其特征在于,

4.如权利要求1-3任一项所述的方法,其特征在于,在所述将所述第一源语言文本和所述第二源语言文本分别从源语言翻译为目标语言,以获得与所述第一源语言文本对应的第一目标语言文本和与所述第二源语言文本对应的第二目标语言文本之前,所述方法还包括:

5.如权利要求1-3...

【技术特征摘要】

1.一种标注数据获取方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,在所述至少基于所述源语言标注信息确定所述第一目标语言文本和所述第二目标语言文本所对应的目标语言标注信息,以获得目标语言标注数据之前,所述方法还包括:

3.如权利要求2所述的方法,其特征在于,

4.如权利要求1-3任一项所述的方法,其特征在于,在所述将所述第一源语言文本和所述第二源语言文本分别从源语言翻译为目标语言,以获得与所述第一源语言文本对应的第一目标语言文本和与所述第二源语言文本对应的第二目标语言文本之前,所述方法还包括:

5.如权利要求1-3任一项所述的方法,其特征在于,所述源语言标注信息还包括边界信息,所述边界信息用于指示所述至少一个文本片段中每个文本片段的边界,所述至少基于所述源语言标注信息确定所述第一目标语言文本和所述第二目标语言文...

【专利技术属性】
技术研发人员:潘华山李秀林
申请(专利权)人:标贝青岛科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1