音频文本对的获取方法和装置、电子设备、存储介质制造方法及图纸

技术编号：41246046 阅读：2 留言：0更新日期：2024-05-09 23:56

本申请提供了一种音频文本对的获取方法和装置，其中，该获取方法包括：获取与目标音频文件关联的原始文本；对所述目标音频文件进行语音识别，得到带时间戳的识别文本；对所述原始文本和所述识别文本进行文本对齐，得到文本对齐结果；将所述文本对齐结果，切割为多个初始子段落；统计所述多个初始子段落中各个初始子段落的字错率，并根据各个初始子段落的字错率进行筛选，得到多个目标子段落；根据多个目标子段落中各子段落的时间戳，为多个目标子段落匹配目标音频文件，得到多个音频文本对，其中，所述音频文本对用于作为训练数据对模型进行训练。通过上述方案可以准确高效地获取大量的音频文本对作为训练数据。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及音频处理，具体地涉及音频文本对的获取方法和装置以及相关的电子设备和存储介质。

技术介绍

1、tts(text to speech，语音合成)是通过文本等自动合成语音，对于tts而言，在模型训练的时候，需要大量的短条的音频文本对作为训练数据。目前，这些训练数据的获取主要有如下两种方式：

2、1)人工录制文本对应的语音，以得到训练数据，这种方式得到数据的成本较高，难获得大量的数据；

3、2)在仅有语音数据时，通过语音识别，将语音数据转换为对应的文本，并通过交叉验证等方式，得到训练数据，这种方式得到样本的准确率较低，尤其对于文本中的标点符号较难识别，很难得到准确的标点符号。

4、针对上述准确高效地获取大量的音频文本对作为训练数据，目前尚未提出有效的解决方案。

5、此
技术介绍
的说明旨在帮助理解相关领域内的相关技术，并不代表承认
技术介绍
内容属于现有技术。

技术实现思路

1、本申请目的在于提供一种音频文本对的获取方法和装置，可以准确高效地获取大量的音频文本对作为训练数据。

2、第一方面，本申请提供了一种音频文本对的获取方法，包括：

3、获取与目标音频文件关联的原始文本；

4、对所述目标音频文件进行语音识别，得到带时间戳的识别文本；

5、对所述原始文本和所述识别文本进行文本对齐，得到文本对齐结果；

6、将所述文本对齐结果，切割为多个初始子段落；

7、统计所述多个初始子

8、根据多个目标子段落中各子段落的时间戳，为多个目标子段落匹配目标音频文件，得到多个音频文本对，其中，所述音频文本对用于作为训练数据对模型进行训练。

9、在一些实施例中，对所述原始文本和所述识别文本进行文本对齐，得到文本对齐结果，包括：

10、在当前位置点所述识别文本为文字内容，所述原始文本为空的情况下，删除所述识别文本当前位置点的文字内容；

11、在当前位置点所述原始文本为文字内容，所述识别文本为空的情况下，在识别文本当前位置点插入原始文本当前位置点的文字内容；

12、在当前位置点所述识别文本与所述原始文本都存在文字内容，但文字内容不一致的情况下，将所述识别文本当前位置点的文字内容转换为第一拼音，将所述原始文本当前位置点的文字内容转换为第二拼音，确定所述第一拼音与所述第二拼音是否一致，在拼音一致的情况下，确定当前位置点已对齐，在拼音不一致的情况下，将识别文本当前位置点替换为原始文本当前位置点的文字内容。

13、在一些实施例中，对所述原始文本和所述识别文本进行文本对齐，得到文本对齐结果，包括：

14、确定当前位置点所述识别文本是否为预设语气词；

15、在当前位置点所述识别文本为预设语气词的情况下，将原始文本当前位置点替换为识别文本当前位置点的预设语气词。

16、在一些实施例中，对所述原始文本和所述识别文本进行文本对齐，得到文本对齐结果，包括：

17、在当前位置点所述原始文本为标点符号，所述识别文本是与所述原始文本不同的标点符号的情况下，将识别文本当前位置点的标点符号替换为原始文本当前位置点的标点符号；

18、在当前位置点所述原始文本为标点符号，所述识别文本为空的情况下，在识别文本当前位置点插入原始文本当前位置点的标点符号；

19、在当前位置点所述识别文本为标点符号，所述原始文本无标点符号的情况下，删除所述识别文本当前位置点的标点符号。

20、在一些实施例中，统计所述多个初始子段落中各个初始子段落的字错率，包括：

21、统计当前初始子段落中字符总数；

22、根据文本对齐结果，统计当前初始子段落中存在替换、删除、插入操作的字符数；

23、确定存在替换、删除、插入操作的字符数占字符总数的比例；

24、将确定的比例，作为当前初始子段落的字错率。

25、在一些实施例中，根据各个初始子段落的字错率进行筛选，得到多个目标子段落，包括：

26、获取预设的判定阈值；

27、删除初始子段落中子错率超出所述判定阈值的段落，得到多个目标子段落。

28、在一些实施例中，将所述文本对齐结果，切割为多个初始子段落，包括：

29、获取预设的切分标点和/或预设的切分字长；

30、根据预设的切分标点和/或预设的切分字长，将对齐后的识别文本，切割为多个初始子段落。

31、在一些实施例中，所述音频文本对为文本在前、音频在后的形式，用于作为对语音合成模型进行训练的第一训练数据。

32、在一些实施例中，所述音频文本对为音频在前、文本在后的形式，用于作为对语音识别模型进行训练的第二训练数据。

33、第二方面，本申请提供了一种音频文本对的获取装置，包括：

34、获取模块，用于获取与目标音频文件关联的原始文本；

35、识别模块，用于对所述目标音频文件进行语音识别，得到带时间戳的识别文本；

36、对齐模块，用于对所述原始文本和所述识别文本进行文本对齐，得到文本对齐结果；

37、切割模块，用于将所述文本对齐结果，切割为多个初始子段落；

38、筛选模块，用于统计所述多个初始子段落中各个初始子段落的字错率，并根据各个初始子段落的字错率进行筛选，得到多个目标子段落；

39、生成模块，用于根据多个目标子段落中各子段落的时间戳，为多个目标子段落匹配目标音频文件，得到多个音频文本对，其中，所述音频文本对用于作为训练数据对模型进行训练。

40、在一些实施例中，所述对齐模块包括：

41、第一处理单元，用于在当前位置点所述识别文本为文字内容，所述原始文本为空的情况下，删除所述识别文本当前位置点的文字内容；

42、第二处理单元，用于在当前位置点所述原始文本为文字内容，所述识别文本为空的情况下，在识别文本当前位置点插入原始文本当前位置点的文字内容；

43、第三处理单元，用于在当前位置点所述识别文本与所述原始文本都存在文字内容，但文字内容不一致的情况下，将所述识别文本当前位置点的文字内容转换为第一拼音，将所述原始文本当前位置点的文字内容转换为第二拼音，确定所述第一拼音与所述第二拼音是否一致，在拼音一致的情况下，确定当前位置点已对齐，在拼音不一致的情况下，将识别文本当前位置点替换为原始文本当前位置点的文字内容。

44、在一些实施例中，所述切割模块包括：

45、获取单元，用于获取预设的切分标点和/或预设的切分字长；

46、切割单元，用于根据预设的切分标点和/或预设的切分字长，将对齐后的识别文本，切割为多个初始子段落。

47、第三方面，本申请提供了一种电子本文档来自技高网...

【技术保护点】

1.一种音频文本对的获取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对所述原始文本和所述识别文本进行文本对齐，得到文本对齐结果，包括：

3.根据权利要求1或2所述的方法，其特征在于，对所述原始文本和所述识别文本进行文本对齐，得到文本对齐结果，包括：

4.根据权利要求1所述的方法，其特征在于，对所述原始文本和所述识别文本进行文本对齐，得到文本对齐结果，包括：

5.根据权利要求1所述的方法，其特征在于，统计所述多个初始子段落中各个初始子段落的字错率，包括：

6.根据权利要求1所述的方法，其特征在于，根据各个初始子段落的字错率进行筛选，得到多个目标子段落，包括：

7.根据权利要求1所述的方法，其特征在于，将所述文本对齐结果，切割为多个初始子段落，包括：

8.根据权利要求1所述的方法，其特征在于，所述音频文本对为文本在前、音频在后的形式，用于作为对语音合成模型进行训练的第一训练数据。

9.根据权利要求1所述的方法，其特征在于，所述音频文本对为音频在前、文本在后的形式，用

10.一种音频文本对的获取装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述对齐模块包括：

12.根据权利要求10所述的装置，其特征在于，所述切割模块包括：

13.一种电子设备，包括处理器以及用于存储处理器可执行指令的存储器，其特征在于，所述处理器执行所述指令时实现权利要求1至9中任一项所述方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至9中任一项所述方法的步骤。

...

【技术特征摘要】