语音识别标点生成方法及电子设备和存储介质技术

技术编号:37362499 阅读:21 留言:0更新日期:2023-04-27 07:10
本发明专利技术公开一种语音识别标点生成方法、电子设备和存储介质,其中方法包括:将待识别语音输入至语音识别编码器,得到语音识别编码器输出的编码结果;将编码结果输入至语音识别解码器,得到语音识别解码器输出的解码中间结果;经由与语音识别输出层输出与解码中间结果对应的语音识别中间结果,并经由标点输出层输出与解码中间结果对应的标点中间结果;将语音识别中间结果和标点中间结果联合编码结果输入至语音识别解码器,循环迭代直至解码完成,输出语音识别最终结果及标点最终结果。本发明专利技术实施例通过将标点任务和语音识别结合在一起,仅需使用少量额外参数,又避免了两阶段处理导致的输入失配问题,同时也减小了对最终性能的影响。影响。影响。

【技术实现步骤摘要】
语音识别标点生成方法及电子设备和存储介质


[0001]本专利技术属于语音识别
,尤其涉及一种语音识别标点生成方法及电子设备和存储介质。

技术介绍

[0002]现有技术是通过利用大规模文本训练,训练时输入无标签文本,输出标点的分类。推断时输入语音识别结果文本,输出标点的分类。语言模型参数量较大,非常占用计算资源,在计算资源受限如芯片、终端等环境下时延较高。后处理的训练和推断时的输入是失配的,训练时输入是自然语言,推断时输入是语音识别结果文本,后者是存在错误的。
[0003]现有技术也通常会采用模型蒸馏、模型量化的方式,或将标点直接当作一个语音识别的字符来建模。这样的方案较为直接,可以直接将原本的大模型变为小模型。芯片等环境下的语音识别、标点生成需要考虑计算资源,而不考虑计算资源的情况下,后处理确实是性价比相对高且好实现的方案。相对而言,将标点当作语音识别字符来建模减少了很多参数量,但很大程度上影响了最终的性能。
[0004]专利技术人发现:上述技术提供的能力是单一的,在产品的设计不能满足用户的实际需求,对于使用语言模型会增大本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音识别标点生成方法,包括:将待识别语音输入至语音识别编码器,得到所述语音识别编码器输出的编码结果;将所述编码结果输入至语音识别解码器,得到所述语音识别解码器输出的解码中间结果;经由与语音识别输出层输出与所述解码中间结果对应的语音识别中间结果,并经由标点输出层输出与所述解码中间结果对应的标点中间结果;将所述语音识别中间结果和所述标点中间结果联合所述编码结果输入至所述语音识别解码器,循环迭代直至解码完成,输出语音识别最终结果及标点最终结果。2.根据权利要求1所述的方法,其中,所述标点输出层为分类线性层,所述标点输出层的输入与所述语音识别解码器的输出相关。3.根据权利要求2所述的方法,其中,所述标点输出层的输入包括:所述语音识别解码器的解码器层中第一层的输出、所述语音识别解码器的解码器层中中间层的输出、所述语音识别解码器的解码器层中最后层的输出或所述语音识别解码器的解码器层中不同层的输出特征求和。4.根据权利要求3所述的方法,其中,所述标点输出层的输入为所述语音识别解码器的解码器层中最后层的输出。5.根据权利要求1所述的方法,其中,所述语音识别解码器同时分别建模语音识别文本的预测和标点的预测。6.根据权利要求1

5中任一项所述的方法,其中,所述方法用于联合语音识别

标点生成模型,所述联合语音识...

【专利技术属性】
技术研发人员:谭天周之恺钱彦旻
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1