【技术实现步骤摘要】
本专利技术涉及语音合成,具体地,涉及一种标注数据获取方法、一种标注数据获取装置、一种电子设备和一种计算机可读存储介质。
技术介绍
1、文本规范化(textnormalization,tn)是语音合成(textto speech,简称tts)系统中很重要的一个环节,对于语音合成的语义理解至关重要。文本规范化是将一个非标准化词(non-standardwords,nsw)转化为朗读形式词(spoken-formwords,sfw),以消除歧义的过程,主要功能是将文本中的数字、符号、缩写等转换成语言文字。技术实现上一般是将tn系统拆分成标注器(tagger)和转换器(convertor)两部分,这两部分按照流水线(pipeline)执行。其中,标注器的主要作用是识别非标准化词的边界、类型等,而转换器则是基于标注器的标注结果进一步将非标准化词转换为朗读形式词。标注器和转换器可以基于模型和/或规则和/或函数等构建。
2、现有技术中,文本规范化方法通常都需要预先获取标注数据集以对文本规范化所采用的模型和/或规则和/或函数进行训练,尤其是
...【技术保护点】
1.一种标注数据获取方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,在所述至少基于所述源语言标注信息确定所述第一目标语言文本和所述第二目标语言文本所对应的目标语言标注信息,以获得目标语言标注数据之前,所述方法还包括:
3.如权利要求2所述的方法,其特征在于,
4.如权利要求1-3任一项所述的方法,其特征在于,在所述将所述第一源语言文本和所述第二源语言文本分别从源语言翻译为目标语言,以获得与所述第一源语言文本对应的第一目标语言文本和与所述第二源语言文本对应的第二目标语言文本之前,所述方法还包括:
...
【技术特征摘要】
1.一种标注数据获取方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,在所述至少基于所述源语言标注信息确定所述第一目标语言文本和所述第二目标语言文本所对应的目标语言标注信息,以获得目标语言标注数据之前,所述方法还包括:
3.如权利要求2所述的方法,其特征在于,
4.如权利要求1-3任一项所述的方法,其特征在于,在所述将所述第一源语言文本和所述第二源语言文本分别从源语言翻译为目标语言,以获得与所述第一源语言文本对应的第一目标语言文本和与所述第二源语言文本对应的第二目标语言文本之前,所述方法还包括:
5.如权利要求1-3任一项所述的方法,其特征在于,所述源语言标注信息还包括边界信息,所述边界信息用于指示所述至少一个文本片段中每个文本片段的边界,所述至少基于所述源语言标注信息确定所述第一目标语言文本和所述第二目标语言文...
【专利技术属性】
技术研发人员:潘华山,李秀林,
申请(专利权)人:标贝青岛科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。