语音转写方法、装置、设备及可读存储介质制造方法及图纸

技术编号:38633127 阅读:23 留言:0更新日期:2023-08-31 18:30
本申请公开了一种语音转写方法、装置、设备及可读存储介质,在语音转写过程中,对于音频数据对应的转写文本,先将转写文本进行拼音化处理,得到转写文本对应的拼音,再基于转写文本对应的拼音,确定出待校正词条,以及,与待校正词条对应的目标样本词条,最后,基于目标样本词条与待校正词条的前缀词的匹配关系,以及,目标样本词条与待校正词条的后缀词的匹配关系,确定是否将待校正词条替换为目标样本词条。基于该方案在语音转写过程中能够实现自动文本校正,因此能够降低语音转写过程中,对转写结果中的偏差进行校正的人工成本,提升了语音转写的效率。音转写的效率。音转写的效率。

【技术实现步骤摘要】
语音转写方法、装置、设备及可读存储介质


[0001]本申请涉及语音处理
,更具体的说,是涉及一种语音转写方法、装置、设备及可读存储介质。

技术介绍

[0002]目前,语音转写技术广泛应用于各种场景,在一些场景(比如,展会场景)中,对转写结果的准确率要求非常高,但是,对于一些特殊情况(比如,发言人自带口音、发言人前后鼻音不分、同音字词、相似音字词等)的语音进行转写,往往会导致转写结果存在一些偏差,因此,需要对转写结果中的偏差进行校正。
[0003]目前,多采用人工的方式对转写结果中的偏差进行校正,在语音转写过程中,需人工全程注意转写结果是否存在偏差并及时校正。但是,这种方式人力成本较高,效率低下。
[0004]因此,如何提供一种语音转写方法,以降低语音转写过程中,对转写结果中的偏差进行校正的人工成本,提升语音转写的效率,成为本领域技术人员亟待解决的技术问题。

技术实现思路

[0005]鉴于上述问题,本申请提出了一种语音转写方法、装置、设备及可读存储介质。具体方案如下:
[0006]一种语音转写方法,所本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音转写方法,其特征在于,所述方法包括:获取音频数据对应的第一转写文本;对所述第一转写文本进行拼音化处理,得到所述第一转写文本对应的拼音;基于所述第一转写文本对应的拼音,确定出待校正词条,以及,与所述待校正词条对应的目标样本词条;所述待校正词条为对应拼音存在近似拼音,或,存在同音词条的词条;所述目标样本词条的拼音与所述待校正词条的拼音相同或相近;基于所述目标样本词条与所述待校正词条的前缀词的匹配关系,以及,所述目标样本词条与所述待校正词条的后缀词的匹配关系,确定是否将所述待校正词条替换为所述目标样本词条。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一转写文本对应的拼音,确定出待校正词条,以及,与所述待校正词条对应的目标样本词条,包括:获取与所述音频数据领域对应的预设样本集合,所述预设样本集合中包括多个样本词条信息,每个样本词条信息中包括一个样本词条、所述样本词条对应的拼音集合,其中,所述样本词条对应的拼音集合中包括所述样本词条对应的拼音,以及与所述样本词条对应的拼音近似的拼音;基于所述第一转写文本对应的拼音与所述预设样本集合,确定出待校正词条,以及,与所述待校正词条对应的目标样本词条。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一转写文本对应的拼音与所述预设样本集合,确定出待校正词条,以及,与所述待校正词条对应的目标样本词条,包括:将所述第一转写文本对应的拼音与所述预设样本集合中各个样本词条对应的拼音集合进行匹配,确定所述第一转写文本对应的拼音中与所述预设样本集合中各个样本词条对应的拼音集合匹配成功的拼音片段对应的词条为待校正词条;确定所述预设样本集合中各个样本词条对应的拼音集合中与所述拼音片段匹配成功的拼音对应的样本词条为与所述待校正词条对应的目标样本词条。4.根据权利要求1所述的方法,其特征在于,所述基于所述目标样本词条与所述待校正词条的前缀词的匹配关系,以及,所述目标样本词条与所述待校正词条的后缀词的匹配关系,确定是否将所述待校正词条替换为所述目标样本词条,包括:计算所述目标样本词条与所述待校正词条的前缀词的当前匹配得分;计算所述目标样本词条与所述待校正词条的后缀词的当前匹配得分;基于所述目标样本词条与所述待校正词条的前缀词的当前匹配得分,以及,所述目标样本词条与所述待校正词条的后缀词的当前匹配得分,计算所述目标样本词条的综合得分;基于所述目标样本词条的综合得分,确定是否将所述待校正词条替换为所述目标样本词条。5.根据权利要求4所述的方法,其特征在于,所述计算所述目标样本词条与所述待校正词条的前缀词的当前匹配得分,包括:获取所述目标样本词条的前缀词激励参数、所述目标样本词条与所述前缀词的参考匹配得分、所述目标样本词条与所述前缀词的组合对应的用户正向反馈次数,以及,所述目标
样本词条与所述前缀词的组合对应的用户负向反馈次数中的至少一个;基于所述目标样本词条的前缀词激励参数、所述目标样本词条与所述前缀词的参考匹配得分、所述目标样本词条与所述前缀词的组合对应的用户正向反馈次数,以及,所述目标样本词条与所述前缀词的组合对应的用户负向反馈次数中的至少一个,计算所述目标样本词条与所述前缀词的当前匹配得分,并将所述目标样本词条与所述前缀词的参考匹配得分更新为所述目标样本词条...

【专利技术属性】
技术研发人员:王玮曹军徐俊王兆育国丽
申请(专利权)人:安徽听见科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1