一种多人对话场景下提高音频转写准确性的方法和系统技术方案

技术编号:35026470 阅读:14 留言:0更新日期:2022-09-24 22:58
本申请公开了一种多人对话场景下提高语音转写准确性的方法和系统,获取待识别的音频数据;基于所述音频数据,进行小句段单元划分处理,获取小句段单元划分处理结果;基于所述小句段单元划分处理结果,进行精准识别处理,获取识别处理结果;基于所述识别处理结果进行降噪处理,获取降噪处理结果;基于所述降噪处理结果,进行音频识别转换处理,获取转换数据;基于所述的转换数据进行前端显示,实现多人共同对话音频场景下的音频识别。本申请有效解决了通过传统方式的人工转写耗费时间长,识别效率低的问题,通过融入前端ASR技术,减少了人工转写的介入,提升了转写效率。提升了转写效率。提升了转写效率。

【技术实现步骤摘要】
一种多人对话场景下提高音频转写准确性的方法和系统


[0001]本申请属于字幕转写、语音识别领域,具体涉及一种多人共同对话场景下提高语音转写准确性的辅助方法。

技术介绍

[0002]字幕转写通常有两种做法,一种是通过人工听写来输出转写内容及时间轴信息,这种方案优点是转写准确性相对更高,缺点则是耗时非常长。另一种是借助于语音识别转写技术,将输入音频文件发送给语音识别引擎,获取转写输出结果,优点是结果相对正确,速度相对人工听写方式极快,缺点则是准确性对于不同文件差异会很大,尤其是多人共同对话场景时,会获取到大段落的识别文本,且内容混乱,无法分清各说话人对应文本内容及时间轴信息。
[0003]对于字幕转写来说,由于字幕长度所限,每一语音段内字符数量有严格要求,仅支持1

2行文字显示,因此这种识别出的大段落文本无法直接使用,需要再次通过手动进行人工转写,效率同样较低并且容易出错。
[0004]因此,如何有效的提升多人共同对话场景时的语音识别准确性、识别结果清晰就变的非常重要。

技术实现思路

[0005]本申请提出了一种多人对话场景下提高音频转写准确性的方法和系统,通过获取待识别的音频数据,进行小句段划分、音频文件通用降噪、通过语音识别引擎进行转换,将转换结果进行前端显示,实现多人共同对话音频场景下的音频识别。
[0006]为实现上述目的,本申请提供了如下方案:
[0007]一种多人对话场景下提高语音转写准确性的方法,包括以下内容:
[0008]获取待识别的音频数据;
[0009]基于所述音频数据,进行小句段单元划分处理,获取小句段单元划分处理结果;
[0010]基于所述小句段单元划分处理结果,进行精准识别处理,获取识别处理结果;
[0011]基于所述识别处理结果进行降噪处理,获取降噪处理结果;
[0012]基于所述降噪处理结果,进行音频识别转换处理,获取转换数据。
[0013]优选的,所述小句段单元划分处理的方法包括:
[0014]基于所述音频数据,通过前端快捷功能,截取主说话人指定时间段,生成多个不同时间交错的小句段单元。
[0015]优选的,所述精准识别处理的方法包括:
[0016]基于所述小句段单元划分处理结果,通过前端ASR指令进行识别,并通过FFmpeg指令对所述音频数据进行处理,获取识别处理结果。
[0017]优选的,所述降噪处理的方法包括:
[0018]通过sox命令单元文件生成降噪配置文件,基于所述降噪配置文件,通过sox音频
降噪指令进行降噪处理,获取降噪处理结果。
[0019]优选的,所述音频识别转换处理的方法包括:
[0020]基于所述降噪处理结果,通过语音识别引擎进行音频识别转换处理,获取每个降噪后的单元文件对应的语音识别结果,得到精确转换文本。
[0021]为了更好的实现上述
技术实现思路
,本申请还提供了一种多人对话场景下提高语音转写准确性的系统,
[0022]包括:音频数据采集模块、音频数据句段单元划分模块、音频数据精准识别模块、音频数据降噪处理模块和音频数据识别转换处理模块;
[0023]音频数据采集模块用于获取待识别的音频数据;
[0024]音频数据句段单元划分模块用于基于所述音频数据,进行小句段单元划分处理,获取小句段单元划分处理结果;
[0025]音频数据精准识别模块用于基于所述小句段单元划分处理结果,进行精准识别处理,获取识别处理结果;
[0026]音频数据降噪处理模块用于基于所述识别处理结果进行降噪处理,获取降噪处理结果;
[0027]音频数据识别转换处理模块用于基于所述降噪处理结果,进行音频识别转换处理,获取转换数据。
[0028]优选的,所述音频数据句段单元划分模块中所述小句段单元划分处理的方法包括:
[0029]基于所述音频数据,通过前端快捷功能,截取主说话人指定时间段,生成多个不同时间交错的小句段单元。
[0030]优选的,所述音频数据精准识别模块中所述精准识别处理的方法包括:
[0031]基于所述小句段单元划分处理结果,通过前端ASR指令进行识别,并通过FFmpeg指令对所述音频数据进行处理,获取识别处理结果。
[0032]优选的,所述音频数据降噪处理模块中所述降噪处理的方法包括:
[0033]通过sox命令单元文件生成降噪配置文件,基于所述降噪配置文件,通过sox音频降噪指令进行降噪处理,获取降噪处理结果。
[0034]优选的,所述音频数据识别转换处理模块中所述音频识别转换处理的方法包括:
[0035]基于所述降噪处理结果,通过语音识别引擎进行音频识别转换处理,获取每个降噪后的单元文件对应的语音识别结果,得到精确转换文本。
[0036]本申请的有益效果为:本申请公开了一种多人对话场景下提高语音转写准确性的方法和系统,本申请有效解决了通过传统方式的人工转写耗费时间长,识别效率低的问题,通过融入前端ASR技术,减少了人工转写的介入,提升了转写效率。
附图说明
[0037]为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0038]图1为本申请实施例方法流程示意图;
[0039]图2为本申请实施例整体流程示意图;
[0040]图3为本申请实施例拆分模块流程示意图;
[0041]图4为本申请实施例系统结构流程示意图;
[0042]图5为本申请实施例获取噪音样本文件示意图;
[0043]图6为本申请实施例安装sox软件示意图;
[0044]图7为本申请实施例输入命令示意图;
[0045]图8为本申请实施例生成对应的降噪配置文件示意图;
[0046]图9为本申请实施例生成降噪后文件示意图。
具体实施方式
[0047]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0048]为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
[0049]实施例一
[0050]如图1所示,一种多人对话场景下提高语音转写准确性的方法,包括以下内容:
[0051]获取待识别的音频数据;
[0052]基于音频数据,进行小句段单元划分处理,获取小句段单元划分处理结果;
[0053]基于小句段单元划分处理结果,进行精准识别处理,获取识别处理结果;
[0054本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多人对话场景下提高语音转写准确性的方法,其特征在于,获取待识别的音频数据;基于所述音频数据,进行小句段单元划分处理,获取小句段单元划分处理结果;基于所述小句段单元划分处理结果,进行精准识别处理,获取识别处理结果;基于所述识别处理结果进行降噪处理,获取降噪处理结果;基于所述降噪处理结果,进行音频识别转换处理,获取转换数据。2.如权利要求1所述一种多人对话场景下提高语音转写准确性的方法,其特征在于,所述小句段单元划分处理的方法包括:基于所述音频数据,通过前端快捷功能,生成多个不同时间交错的小句段单元。3.如权利要求1所述一种多人对话场景下提高语音转写准确性的方法,其特征在于,所述精准识别处理的方法包括:基于所述小句段单元划分处理结果,通过前端ASR指令进行识别,并通过FFmpeg指令对所述音频数据进行处理,获取识别处理结果。4.如权利要求1所述一种多人对话场景下提高语音转写准确性的方法,其特征在于,所述降噪处理的方法包括:通过sox命令单元文件生成降噪配置文件,基于所述降噪配置文件,通过sox音频降噪指令进行降噪处理,获取降噪处理结果。5.如权利要求1所述一种多人对话场景下提高语音转写准确性的方法,其特征在于,所述音频识别转换处理的方法包括:基于所述降噪处理结果,通过语音识别引擎进行音频识别转换处理,获取每个降噪后的单元文件对应的语音识别结果,得到精确转换文本。6.一种多人对话场景下提高语音转写准确性的系统,其特征在于,包括:音频数据采集模块、音频数据句段单元划分模块、音频数据精准识别模块、音频数据降噪处理模块和音频数据识别转换处理模块;音频数据采集模块用于获取...

【专利技术属性】
技术研发人员:张立卓
申请(专利权)人:沈阳创思佳业科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1