一种基于音波图的音频识别结果可视化展示方法和系统技术方案

技术编号:38729639 阅读:15 留言:0更新日期:2023-09-08 23:20
本发明专利技术公开了一种基于音波图的音频识别结果可视化展示方法,属于警用音频处理技术领域。本发明专利技术提供了完善的音频识别结果展示思路和与音波图的交互方式,实现了音频识别结果中的每一句话与音波图的片段相互对应和动态交互,清晰的展示出识别结果中每一句话在音波图上的位置以及对应的音波图片段,形成了识别结果的可视化展示能力;音波图播放时,在语音识别结果展示区突出显示当前播放位置对应的对话内容,实现了识别结果和音波图的同步展示;点击语音识别结果区的每一句话,会控制音波图跳转到对应的位置,实现了识别结果的快速定位。本发明专利技术实现了音波图、音频和对话内容三方的快速定位,提高了办案人员的办案效率。提高了办案人员的办案效率。提高了办案人员的办案效率。

【技术实现步骤摘要】
一种基于音波图的音频识别结果可视化展示方法和系统


[0001]本专利技术属于警用音频处理
,更具体地,涉及一种基于音波图的音频识别结果可视化展示方法和系统。

技术介绍

[0002]随着音频音波图技术和语音识别技术的快速发展,利用计算机技术可以将办案过程中收集到的音频进行可视化展示和语音识别,传统展示方式只停留在音频和整篇的语音识别结果关联,对于音频中的重要信息办案人员很难快速定位到这些信息所在位置,可能需要多次点击才能精确定位,这一过程很浪费时间。在一个音频中可能涉及多个角色对话,需要办案人员去记不同角色所说的不同的话,无法直观的显示每个人所说的话。

技术实现思路

[0003]针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于音波图的音频识别结果可视化展示方法和系统,其目的在于解决现有音频识别展示技术无法精确快速定位所需信息以及分角色展示识别结果的技术问题。
[0004]为实现上述目的,一方面,本专利技术提供了一种基于音波图的音频识别结果可视化展示方法,所述方法包括:
[0005]获取音频的音波图和语音识别结果,并基于音波图获取音波图总长度L和总时间totalT,基于语音识别结果获取每句对话的开始时间beginT、结束时间endT、角色和对话内容;
[0006]在音波图上创建不同的区域对应所述音频中的每句对话,所述区域相对于音波图的开始位置offsetX为:
[0007][0008]宽度width为:
[0009][0010]所述区域被选择后,所述音频跳转到被选所述区域的开始位置进行播放;
[0011]将语音识别结果中的每句对话按角色加对话内容的形式在结果展示区进行展示,当音频进行播放时,获取当前播放时间,若所述播放时间位于一句对话的开始时间beginT和结束时间endT之间,则突出显示所述对话;
[0012]若选择了展示中的一句对话,则获取所述对话的开始时间beginT,跳转到音频的beginT进行播放,且所述对话在音波图上对应的区域突出显示。
[0013]优选的,若选择了展示中的角色,则展示中所述角色所说的对话内容被突出显示,且所述对话内容在音波图上对应的区域被突出显示。
[0014]优选的,所述区域在音波图上分段显示,若所述区域被选择,则所述区域的音波图
被突出显示,且在识别结果展示区突出显示所述区域对应的所述对话内容。
[0015]优选的,若选择展示的一句对话,则进入所述对话内容的编辑功能,并能将编辑后对话内容保存在语音识别结果中。
[0016]按照本专利技术的另一方面,本专利技术提供了一种基于音波图的音频识别结果可视化展示系统,所述系统包括:
[0017]参数获取模块,用于获取音频的音波图和语音识别结果,并基于音波图获取音波图总长度L和总时间totalT,基于语音识别结果获取每句对话的开始时间beginT、结束时间endT、角色和对话内容;
[0018]区域选择模块,用于在音波图上创建不同的区域对应所述音频中的每句对话,所述区域相对于音波图的开始位置offsetX为:
[0019][0020]宽度width为:
[0021][0022]所述区域被选择后,所述音频跳转到被选所述区域的开始位置进行播放;
[0023]内容显示模块,用于将语音识别结果中的每句对话按角色加对话内容的形式在结果展示区进行展示,当音频进行播放时,获取当前播放时间,若所述播放时间位于一句对话的开始时间beginT和结束时间endT之间,则突出显示所述对话;
[0024]播放选择模块,用于判断,若选择了展示中的一句对话,则获取所述对话的开始时间beginT,跳转到音频的beginT进行播放,且所述对话在音波图上对应的区域突出显示。
[0025]优选的,若选择了展示中的角色,则展示中所述角色所说的对话内容被突出显示,且所述对话内容在音波图上对应的区域被突出显示。
[0026]优选的,所述区域在音波图上分段显示,若所述区域被选择,则所述区域的音波图被突出显示,且在识别结果展示区突出显示所述区域对应的所述对话内容。
[0027]优选的,若选择展示的一句对话,则进入所述对话内容的编辑功能,并能将编辑后对话内容保存在语音识别结果中。
[0028]总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,具有以下有益效果:
[0029](1)本专利技术建立了音波图、音频和语音识别结果之间的关联定位,通过音波图区域、音频播放点和对话内容中任意一方都可以关联定位到对应的另外两方,由此,办案人员可以根据对话内容快速定位到音波图以及对话的音频,或由音频快速定位到对话内容和音波图,实现了音波图、音频和对话内容三方的快速定位,提高了办案人员的办案效率;
[0030](2)本专利技术还可以根据语音识别结果中的角色信息,快速关联到该角色的所有对话内容和对应音频,由此办案人员可以快速定位关键角色的关键对话即语音;
[0031](3)本专利技术还具有语音识别结果编辑功能,可以根据音频编辑快速找到对应对话内容,并对对话内容进行编辑保存。
附图说明
[0032]图1是在音波图上创建不同的区域对应音频中的每句对话的流程图;
[0033]图2是语音识别结果中同步展示音频播放内容的流程图;
[0034]图3是在音波图和音频中快速定位语音识别结果中每句话的流程图。
具体实施方式
[0035]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0036]本专利技术实现了一种基于音波图的音频识别结果可视化展示方法,其中包括:
[0037]获取音频的音波图和语音识别结果,并基于音波图获取音波图总长度L和总时间totalT,基于语音识别结果获取每句对话的开始时间beginT、结束时间endT、角色和对话内容;
[0038]在音波图上创建不同的区域对应所述音频中的每句对话,所述区域相对于音波图的开始位置offsetX为:
[0039][0040]宽度width为:
[0041][0042]所述区域被选择后,比如激活创建的区域点击事件后,所述区域的音波图被高亮突出显示,且所述音频跳转到被选所述区域的开始位置进行播放;具体流程如图1所示;
[0043]将语音识别结果中的每句对话按角色加对话内容的形式进行展示,当音频进行播放时,获取当前播放时间,若所述播放时间位于一句对话的开始时间beginT和结束时间endT之间,则突出显示所述对话,比如高亮突出显示所述对话;具体流程如图2所示;
[0044]若选择了展示中的一句对话,比如激活创建的对话点击事件后,则获取所述对话的开始时间beginT,跳转到音频的beginT进行播放,且所述对话本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于音波图的音频识别结果可视化展示方法,其特征在于,所述方法包括:获取音频的音波图和语音识别结果,并基于音波图获取音波图总长度L和总时间totalT,基于语音识别结果获取每句对话的开始时间beginT、结束时间endT、角色和对话内容;在音波图上创建不同的区域对应所述音频中的每句对话,所述区域相对于音波图的开始位置offsetX为:宽度width为:所述区域被选择后,所述音频跳转到被选所述区域的开始位置进行播放;将语音识别结果中的每句对话按角色加对话内容的形式在结果展示区进行展示,当音频进行播放时,获取当前播放时间,若所述播放时间位于一句对话的开始时间beginT和结束时间endT之间,则突出显示所述对话;若选择了展示中的一句对话,则获取所述对话的开始时间beginT,跳转到音频的beginT进行播放,且所述对话在音波图上对应的区域突出显示。2.根据权利要求1所述的方法,其特征在于,若选择了展示中的角色,则展示中所述角色所说的对话内容被突出显示,且所述对话内容在音波图上对应的区域被突出显示。3.根据权利要求1所述的方法,其特征在于,所述区域在音波图上分段显示,若所述区域被选择,则所述区域的音波图被突出显示,且在识别结果展示区突出显示所述区域对应的所述对话内容。4.根据权利要求1所述的方法,其特征在于,若选择展示的一句对话,则进入所述对话内容的编辑功能,并能将编辑后对话内容保存在语音识别结果中。5.一种基于音波图的音频识别结果可视化展示系统...

【专利技术属性】
技术研发人员:余梦帅乔宏永王虎
申请(专利权)人:中国船舶集团有限公司第七〇九研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1