一种标点预测方法、装置、设备以及计算机存储介质制造方法及图纸

技术编号:37358280 阅读:28 留言:0更新日期:2023-04-27 07:07
本申请实施例公开了一种标点预测方法、装置、设备以及计算机存储介质,该方法包括:获取待识别信息;其中,所述待识别信息包括语音信息和对应的文本信息;基于所述语音信息和文本信息,获取所述待识别信息对应的至少两种特征,所述至少两种特征至少分别与所述语音信息和所述文本信息相关;对所述至少两种特征进行融合处理,确定所述待识别信息的标点预测结果。这样,通过获取待识别信息对应的两种特征,并结合两种特征进行标点预测,避免出现大段文字没有标点的情况,提高了标点预测过程的准确性和效率。性和效率。性和效率。

【技术实现步骤摘要】
一种标点预测方法、装置、设备以及计算机存储介质


[0001]本申请涉及语音识别
,尤其涉及一种标点预测方法、装置、设备以及计算机存储介质。

技术介绍

[0002]目前市面上绝大部分的智能语音设备都需要使用到语音识别文本标点预测功能,如智能音响、会议录音转文字设备、智能对话机器人、视频字幕生成软件等语音识别相关的产品或软件,标点符号的预测结果对于语音识别来讲十分关键,标点预测结果的不准确,可能增加用户阅读难度,甚至直接造成语义不清的问题,直接影响最终的语音识别结果。
[0003]相关技术中,由于训练模型的文本数据和自动语音识别技术识别出来的文本存在较大差异,而且通常情况下,模型只学习上下文内容和加标点的关系,没有从识别信息本身的特征出发,因此实际场景中常出现大段文字没有标点的情况,导致自动语音识别技术识别结果显示的文本可读性较差。

技术实现思路

[0004]本申请的目的在于提出一种标点预测方法、装置、设备以及计算机存储介质。
[0005]为达到上述目的,本申请的技术方案是这样实现的:/>[0006]第一本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种标点预测方法,所述方法包括:获取待识别信息;其中,所述待识别信息包括语音信息和对应的文本信息;基于所述语音信息和文本信息,获取所述待识别信息对应的至少两种特征,所述至少两种特征至少分别与所述语音信息和所述文本信息相关;对所述至少两种特征进行融合处理,确定所述待识别信息的标点预测结果。2.根据权利要求1所述的方法,所述基于所述语音信息和文本信息,获取所述待识别信息对应的至少两种特征,至少包括以下两种:根据所述文本信息,确定所述文本信息的第一特征;结合所述文本信息和所述语音信息,采用语气识别模型确定所述文本信息的第二特征;根据所述语音信息,采用语音分割模型确定所述文本信息的第三特征。3.根据权利要求2所述的方法,所述第一特征至少包括字特征、分词特征和字数特征中的一种,所述第二特征至少包括语气特征,所述第三特征至少包括语音分割特征。4.根据权利要求1

3任一项所述的方法,所述对所述至少两种特征进行融合处理,确定所述待识别信息的标点预测结果,所述方法还包括:对所述至少两种特征进行特征融合处理,得到融合特征矩阵;对所述融合特征矩阵进行升维处理,得到具有高维潜在特征的目标矩阵;采用标点预测模型对所述目标矩阵进行标点预测处理,得到所述待识别信息的标点预测结果。5.根据权利要求1所述方法,在确定所述待识别信息的标点预测结果之后,所述方法还包括:采用后处理模块对所述标点预测结果进行检验和...

【专利技术属性】
技术研发人员:侯婧宇郭莉莉
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1