标点、顺滑一体化的语音识别方法、系统和电子设备技术方案

技术编号：37822041 阅读：30 留言：0更新日期：2023-06-09 09:58

本发明专利技术实施例提供一种标点、顺滑一体化的语音识别方法、系统和电子设备。该方法包括：将音频输入至识别

全部详细技术资料下载

【技术实现步骤摘要】
标点、顺滑一体化的语音识别方法、系统和电子设备

[0001]本专利技术涉及智能语音领域，尤其涉及一种标点、顺滑一体化的语音识别方法、系统和电子设备。

技术介绍

[0002]随着智能语音的发展，长语音实时转写功能的产品为用户提供语音服务。其中，长语音指的是连续不断的进行语音识别的场景，比如：会议转写、音视频字幕等。实时转写指的是在说话的同时流式的识别出语音结果、打上标点、对于口语性的词组(如：嗯，啊)进行顺滑。
[0003]传统转写功能的语音识别模型基于云端进行推理，通常采用分离模型的方法。即：语音识别采用一套模型；标点采用一套模型；口语顺滑采用一套模型。
[0004]在实现本专利技术过程中，专利技术人发现相关技术中至少存在如下问题：
[0005]随着用户对隐私保护需求的不断增长，越来越多的语音业务拒绝将语音数据传至云端进行识别。传统的本地端侧识别仅仅支持简单的命令控制类，长语音实时识别的性能远达不到云端水平。相比云端设备，本地端侧的计算资源是非常有限的。
[0006]传统方法使用三套模型参数量...

【技术保护点】

【技术特征摘要】
1.一种标点、顺滑一体化的语音识别方法，包括：将音频输入至识别
‑
标点
‑
顺滑一体化模型，其中，所述识别
‑
标点
‑
顺滑一体化模型包括编码器以及用于文本预测、标点预测、顺滑预测的解码器；通过所述编码器确定所述音频的隐层特征；所述解码器根据隐层特征依次对所述音频中的m个文字进行识别预测，在第n个文字识别预测之后进行所述第n个文字之后的标点预测以及顺滑预测，得到中间识别结果，并根据所述中间识别结果以及所述隐层特征进行第n+1个文字的识别预测、标点预测以及顺滑预测，直至预测完第m个文字为止，得到最终识别结果，其中，1≤n≤m。2.根据权利要求1所述的方法，其中，所述识别
‑
标点
‑
顺滑一体化模型由训练音频以及所述训练音频的带有标点的基准识别结果训练获得，包括：通过所述识别
‑
标点
‑
顺滑一体化模型的编码器确定所述训练音频的隐层特征；所述识别
‑
标点
‑
顺滑一体化模型的解码器根据隐层特征依次对所述训练音频中的m个文字进行识别预测，在第n个文字识别预测之后进行所述第n个文字之后的标点预测以及顺滑预测，得到中间识别结果，并根据所述中间识别结果以及所述隐层特征进行第n+1个文字的识别预测、标点预测以及顺滑预测，直至预测完第m个文字为止得到最终预测识别结果；基于所述基准识别结果以及所述最终预测识别结果确定的损失函数对所述识别
‑
标点
‑
顺滑一体化模型进行训练，直至所述最终预测识别结果中的文本以及标点趋近于所述基准识别结果为止。3.根据权利要求1所述的方法，其中，所述识别
‑
标点
‑
顺滑一体化模型应用于本地化语音识别。4.根据权利要求1所述的方法，其中，当所述n＝1时，所述解码器直接根据隐层特征确定第1个文字的文字识别结果。5.一种标点、顺滑一体化的语音识别系统，包括：数据接收程序模块，用于将音频输入至识别
‑
标点
‑
顺滑一体化模型，其中，所述识别
‑
标点
‑
顺滑一体化...

【专利技术属性】
技术研发人员：谭天，钱彦旻，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人