句读文本生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：37454128 阅读：31 留言：0更新日期：2023-05-06 09:26

本申请是关于一种句读文本生成方法、装置、电子设备及存储介质，所述方法包括：获取录音数据对应的预处理录音数据，其中，预处理录音数据包括初始音频特征，文字数据以及文字数据对应的字长；根据初始音频特征，文字数据以及文字数据对应的字长进行音频重构处理，生成重构音频特征；将重构音频特征和初始音频特征输入至预设误差计算模块，生成音频差值；在检测到音频差值保持预设差值的情况下，输出录音数据对应的句读文本。相比于现有技术，无需人工标注，而是从录音数据中自动誊写出标注文本，可以快速生成句读标注文本，通过自动挖掘隐性信息并归类，相比于人工标注再训练模型，未引入任何个人的主观经验和习惯，提高句读预测的准确率。测的准确率。测的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
句读文本生成方法、装置、电子设备及存储介质

[0001]本申请涉及语音识别领域，尤其涉及句读文本生成方法、装置、电子设备及存储介质。

技术介绍

[0002]句读预测是指使用机器学习算法对文本预测停顿位置，一般用于指导语音合成系统的发音停顿。目前句读自动预测一般通过机器学习模型进行预测，即输入一句文字，对其中的每个字预测一个停顿类型，例如0表示不停，1表示短停，2表示长停。
[0003]然而现有技术中的机器学习模型，需要预先使用大量人工标注的数据进行模型训练，对于具体到句读预测的训练数据来说，是通过标注人员对每句文字综合句意理解和自己假想朗读的预判，来决定停顿的位置和类型，标注结果的主观随意性较大，导致句读预测的准确率降低。

技术实现思路

[0004]鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的句读文本生成方法、装置、电子设备及存储介质。
[0005]根据本申请的第一方面，提供了一种句读文本生成方法，所述方法包括：
[0006]获取录音数据对应的预...

【技术保护点】

【技术特征摘要】
1.一种句读文本生成方法，其特征在于，所述方法包括：获取录音数据对应的预处理录音数据，其中，所述预处理录音数据包括初始音频特征，文字数据以及所述文字数据对应的字长；根据所述初始音频特征，所述文字数据以及所述文字数据对应的字长进行音频重构处理，生成重构音频特征；将所述重构音频特征和所述初始音频特征输入至预设误差计算模块，生成音频差值；在检测到所述音频差值保持预设差值的情况下，输出所述录音数据对应的句读文本。2.根据权利要求1所述的方法，其特征在于，所述获取录音数据对应的预处理录音数据包括：将所述录音数据输入至预设语音识别系统，生成初始音频特征；将所述初始音频特征进行识别处理，生成文字数据以及所述文字数据对应的字长。3.根据权利要求2所述的方法，其特征在于，所述将所述录音数据输入至预设语音识别系统，生成初始音频特征包括：将所述录音数据进行切分处理，生成录音片段数据；将所述录音片段数据进行特征提取，生成初始音频特征。4.根据权利要求1所述的方法，其特征在于，所述根据所述初始音频特征，文字数据以及所述文字数据对应的字长进行音频重构处理，生成重构音频特征包括：根据所述文字数据获取所述文字数据对应的字嵌入子向量，以及，根据所述初始音频特征和所述字长获取所述录音数据中每个文字数据对应的均值超信息；将所述字嵌入子向量和所述均值超信息输入至所述预设注意力结构模块，生成所述文字数据对应的场景权重值；根据所述字长对所述场景权重值进行扩展处理，生成扩展场景权重矩阵；将所述扩展场景权重矩阵输入至第一预设声学模型，生成第一矩阵；将所述均值超信息和所述第一矩阵进行求和处理，并将求和结果输入至第二预设声学模型，生成所述录音数据对应的重构音频特征。5.根据权利要求4所述的方法，其特征在于，所述根据所述文字数据获取所述文字数据对应的字嵌入子向量包括：在预设汉字列表中对所述文字数据进行...

【专利技术属性】
技术研发人员：王愈，陈明，李健，武卫东，
申请(专利权)人：北京捷通华声科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人