语音识别文本处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：32565299 阅读：23 留言：0更新日期：2022-03-09 16:50

本发明专利技术公开了一种语音识别文本处理方法、装置、电子设备及存储介质，所述方法包括：获取语音识别得到的原始文本；对所述原始文本进行预设处理，得到预设处理结果，其中，所述预设处理包括标点添加处理和/或数字规整处理，所述预设处理结果包括标点添加处理结果和/或数字规整处理结果；通过注意力机制对所述原始文本进行文本顺滑处理，得到文本顺滑处理结果；基于所述文本顺滑处理结果与所述预设处理结果，得到所述原始文本的处理后文本。上述方案中，引入了注意力机制的多目标交互，在输出文本顺滑处理结果的过程中，充分利用了标点添加处理和/或数字规整处理的特征，从而提供了语音识别文本处理的准确率。别文本处理的准确率。别文本处理的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别文本处理方法、装置、电子设备及存储介质

[0001]本专利技术涉及计算机
，尤其涉及一种语音识别文本处理方法、装置、电子设备及存储介质。

技术介绍

[0002]语音识别技术，是对语音信号进行识别处理以得到对应的文本。目前经语音识别处理直接输出的文本可读性较差。因此，亟需一种语音识别文本处理方案，以解决现有技术中语音识别文本可读性差的问题。

技术实现思路

[0003]本专利技术实施例通过提供一种语音识别文本处理方法、装置、电子设备及存储介质，解决了现有技术中语音识别文本可读性差的技术问题。
[0004]第一方面，本专利技术实施例提供一种语音识别文本处理方法，包括：
[0005]获取语音识别得到的原始文本；
[0006]对所述原始文本进行预设处理，得到预设处理结果，其中，所述预设处理包括标点添加处理和/或数字规整处理，所述预设处理结果包括标点添加处理结果和/或数字规整处理结果；
[0007]通过注意力机制对所述原始文本进行文本顺滑处理，得到文本顺滑处理结果；
[0008]基于所述文本顺滑处理结果与所述预设处理结果，得到所述原始文本的处理后文本。
[0009]可选地，所述预设处理为标点添加处理和数据规整处理时，所述预设处理结果为标点添加处理结果和数字规整处理结果时，在所述得到预设处理结果之后，所述方法还包括：将所述标点添加处理结果与所述数字规整处理结果进行融合，得到融合数据；
[0010]所述通过注意力机制对所述原始文本进行文本顺滑处理，...

【技术保护点】

【技术特征摘要】
1.一种语音识别文本处理方法，其特征在于，包括：获取语音识别得到的原始文本；对所述原始文本进行预设处理，得到预设处理结果，其中，所述预设处理包括标点添加处理和/或数字规整处理，所述预设处理结果包括标点添加处理结果和/或数字规整处理结果；通过注意力机制对所述原始文本进行文本顺滑处理，得到文本顺滑处理结果；基于所述文本顺滑处理结果与所述预设处理结果，得到所述原始文本的处理后文本。2.如权利要求1所述的方法，其特征在于，所述预设处理为标点添加处理和数据规整处理时，所述预设处理结果为标点添加处理结果和数字规整处理结果时，在所述得到预设处理结果之后，所述方法还包括：将所述标点添加处理结果与所述数字规整处理结果进行融合，得到融合数据；所述通过注意力机制对所述原始文本进行文本顺滑处理，得到文本顺滑处理结果，包括：基于所述融合数据，通过注意力机制对所述原始文本进行文本顺滑处理，得到文本顺滑处理结果。3.如权利要求1所述的方法，其特征在于，所述预设处理为标点添加处理时，所述对所述原始文本进行预设处理，得到预设处理结果，包括：基于预设的标点标签字典，对所述原始文本进行序列标注，得到所述标点添加处理结果作为所述预设处理结果。4.如权利要求1所述的方法，其特征在于，所述预设处理为数字规整处理时，所述对所述原始文本进行预设处理，得到预设处理结果，包括：基于预设的数字规整标签字典，对所述原始文本进行序列标注，得到所述数字规整处理结果作为所述预设处理结果。5.如权利要求2所述的方法，其特征在于，所述基于所述融合数据，通过注意力机制对所述原始文本进行文本顺滑处理，得到文本顺滑处理结果，包括：对所述原始文本进行文本顺滑特征提取，得到文本顺滑特征数据；对所述融合数据以及所述文本顺滑特征数据进行注意力机制计算，得到交互特征数据；基于所述交互特征数据以及所述文本顺滑特征数据，得到所述文本顺滑处理结果。6.如权利要求1
‑
5任一项所述的方法，其特征在于，所述对所述原始文本进行预设处理，得到预设处理结果，以及所述通过注意力机制对所述原始文本进行文本顺滑处理，得到文本顺滑处理结果，包括：通过预设文本处理模型对所述原始文本进行所述预设处理以及所述文本顺滑处理；所述预设文本处理模型通过以下方式获得：构建所述预设文本处理模型的训练数据以及所述训练数据的标签信息，所述标签信息包括所述训练数据的标点标签、数字规整标签以及文本顺滑标签中的至少一种；基于所述训练数据以及所述训练数据的标签信息，对初始文本处理模型进行训练，得到训练好的文本处理模型，作为所述预设文本处理模型。7.如权利要求6所述的方法，其特征在于，所述构建所述预设文本处理模型的训练数据以及所述训练数据的标签信息，包括：获取第一语料文本；
过滤所述第一语料文本中的标点，得到所述训练数据；基于所述第一语料文本中每个标点的标点类型、标点位置、以及预设的标点标签字典，对所述训练数据进行序列标注，得到所述训练数据的标点标签。8.如权利要求6所述的方法，其特征在于，所述构...

【专利技术属性】
技术研发人员：赵昂，余健，
申请(专利权)人：北京搜狗科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人