一种多人对话场景下提高音频转写准确性的方法和系统技术方案

技术编号：35026470 阅读：14 留言：0更新日期：2022-09-24 22:58

本申请公开了一种多人对话场景下提高语音转写准确性的方法和系统，获取待识别的音频数据；基于所述音频数据，进行小句段单元划分处理，获取小句段单元划分处理结果；基于所述小句段单元划分处理结果，进行精准识别处理，获取识别处理结果；基于所述识别处理结果进行降噪处理，获取降噪处理结果；基于所述降噪处理结果，进行音频识别转换处理，获取转换数据；基于所述的转换数据进行前端显示，实现多人共同对话音频场景下的音频识别。本申请有效解决了通过传统方式的人工转写耗费时间长，识别效率低的问题，通过融入前端ASR技术，减少了人工转写的介入，提升了转写效率。提升了转写效率。提升了转写效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种多人对话场景下提高音频转写准确性的方法和系统

[0001]本申请属于字幕转写、语音识别领域，具体涉及一种多人共同对话场景下提高语音转写准确性的辅助方法。

技术介绍

[0002]字幕转写通常有两种做法，一种是通过人工听写来输出转写内容及时间轴信息，这种方案优点是转写准确性相对更高，缺点则是耗时非常长。另一种是借助于语音识别转写技术，将输入音频文件发送给语音识别引擎，获取转写输出结果，优点是结果相对正确，速度相对人工听写方式极快，缺点则是准确性对于不同文件差异会很大，尤其是多人共同对话场景时，会获取到大段落的识别文本，且内容混乱，无法分清各说话人对应文本内容及时间轴信息。
[0003]对于字幕转写来说，由于字幕长度所限，每一语音段内字符数量有严格要求，仅支持1
‑
2行文字显示，因此这种识别出的大段落文本无法直接使用，需要再次通过手动进行人工转写，效率同样较低并且容易出错。
[0004]因此，如何有效的提升多人共同对话场景时的语音识别准确性、识别结果清晰就变的非常重要。

技术实现思路

[0005]本申请提出了一种多人对话场景下提高音频转写准确性的方法和系统，通过获取待识别的音频数据，进行小句段划分、音频文件通用降噪、通过语音识别引擎进行转换，将转换结果进行前端显示，实现多人共同对话音频场景下的音频识别。
[0006]为实现上述目的，本申请提供了如下方案：
[0007]一种多人对话场景下提高语音转写准确性的方法，包括以下内容：
[0008]获取待识...

【技术保护点】

【技术特征摘要】
1.一种多人对话场景下提高语音转写准确性的方法，其特征在于，获取待识别的音频数据；基于所述音频数据，进行小句段单元划分处理，获取小句段单元划分处理结果；基于所述小句段单元划分处理结果，进行精准识别处理，获取识别处理结果；基于所述识别处理结果进行降噪处理，获取降噪处理结果；基于所述降噪处理结果，进行音频识别转换处理，获取转换数据。2.如权利要求1所述一种多人对话场景下提高语音转写准确性的方法，其特征在于，所述小句段单元划分处理的方法包括：基于所述音频数据，通过前端快捷功能，生成多个不同时间交错的小句段单元。3.如权利要求1所述一种多人对话场景下提高语音转写准确性的方法，其特征在于，所述精准识别处理的方法包括：基于所述小句段单元划分处理结果，通过前端ASR指令进行识别，并通过FFmpeg指令对所述音频数据进行处理，获取识别处理结果。4.如权利要求1所述一种多人对话场景下提高语音转写准确性的方法，其特征在于，所述降噪处理的方法包括：通过sox命令单元文件生成降噪配置文件，基于所述降噪配置文件，通过sox音频降噪指令进行降噪处理，获取降噪处理结果。5.如权利要求1所述一种多人对话场景下提高语音转写准确性的方法，其特征在于，所述音频识别转换处理的方法包括：基于所述降噪处理结果，通过语音识别引擎进行音频识别转换处理，获取每个降噪后的单元文件对应的语音识别结果，得到精确转换文本。6.一种多人对话场景下提高语音转写准确性的系统，其特征在于，包括：音频数据采集模块、音频数据句段单元划分模块、音频数据精准识别模块、音频数据降噪处理模块和音频数据识别转换处理模块；音频数据采集模块用于获取...

【专利技术属性】
技术研发人员：张立卓，
申请(专利权)人：沈阳创思佳业科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人