一种视频会议语音识别方法及系统技术方案

技术编号:30447493 阅读:14 留言:0更新日期:2021-10-24 18:40
本发明专利技术公开了一种视频会议语音识别方法及系统,涉及会议语音识技术领域,本发明专利技术实施例对参会的各麦克风进行编号,每个麦克风编号唯一,记录麦克风编号及该麦克风发出的语音,待生成会议文本后将讲话者的名称替换麦克风编号生成最终会议文本;操作简单,且不会存在识别错误的情况。可以快速定位会议的重点内容,且只需要保持会议重点音频或视频即可,节约内存。能够一边开会议一边发生音频。达到预设网络标准再传输会议语音,避免数据丢失。避免数据丢失。避免数据丢失。

【技术实现步骤摘要】
一种视频会议语音识别方法及系统


[0001]本专利技术涉及会议语音识别
,具体而言,涉及一种视频会议语音识别方法及系统。

技术介绍

[0002]远程会议是指利用现代化的通讯手段,实现跨区域召开会议的目的。要召开远程会议,通常需要有通信线路、远程会议系统,当然在某些情况下还需要专业的服务来协助获得更好的远程会议效果。远程会议系统主要包含音频会议和视频会议。
[0003]现有技术中远程会议存在以下缺陷:参会者需要对会议内容进行回顾调阅,虽然可以全程录制会议,但是录制整个会议过程以及把一个会议视频全部看完或会议音频全部听完耗时耗力,需要拉进度条或快进播放定位会议的重点内容,容易遗漏重点内容,且费时费力,保存整个会议的音频或视频也会耗费大量内存;录制语音后需要将音频上传至转写服务器以生成文字,当参会者所在地网络状态欠佳时,若强行将音频通过网络发送给转写服务器会出现数据丢失等情况。

技术实现思路

[0004]为了克服上述问题或者至少部分地解决上述问题,本专利技术实施例提供一种视频会议语音识别方法及系统,以快速定位会议的重点内容及避免数据丢失。
[0005]本专利技术的实施例是这样实现的:第一方面,本专利技术实施例提供一种视频会议语音识别方法,包括:S1:对参会的麦克风进行编号,每个麦克风编号唯一;S2:参会的麦克风中的任一麦克风若接收到开始记录会议指令,则开始对当前会议语音进行录音;S3:若接收到停止记录会议指令,则停止录音,将开始至停止的这段时间的录音打包生成语音包并离线存储至存储器中;S4:重复S2

S3,当存储器存储的多个语音包的占用容量累加达到第一预设容量时,检测网络传输状态是否达到预设网络标准;S5:若达到预设网络标准则将存储器中存储的多段会议语音通过网络传输至转写服务器,转写服务器按照录音时间的顺序生成对应文字文本;S6:重复步骤S2

S5,直至会议结束,根据文字文本整理生成会议文本;S7:将讲话者的名称替换麦克风编号生成最终会议文本。
[0006]基于第一方面,在本专利技术的一些实施例中,基于第一方面,在本专利技术的一些实施例中,步骤S3中所述将开始至停止的这段时间的录音打包生成语音包并离线存储至存储器中包括:对讲话者输出的语音进行断句,上述断句的方法包括:
讲话者输出语音时的中止时间超过预设时间,则进行断句。
[0007]基于第一方面,在本专利技术的一些实施例中,步骤S5还包括:将文字文本发送给对应的讲话者进行审核。
[0008]基于第一方面,在本专利技术的一些实施例中,上述审核的方法包括:判断转写服务器转写的文字是否准确,讲话者对转写不准确的文字进行手动编辑替换。
[0009]基于第一方面,在本专利技术的一些实施例中,步骤S2中对当前会议语音进行录音的步骤包括:录音时检测讲话者输出的语音音量大小,若音量小于第一预设值则自动放大语音音量。
[0010]基于第一方面,在本专利技术的一些实施例中,步骤S3离线存储的方法包括:将录音存储至录音设备搭载的本地存储器中。
[0011]第二方面,本专利技术实施例提供一种视频会议语音识别系统,包括:编号模块,对参会的麦克风进行编号,每个麦克风编号唯一;开始录音模块,参会的麦克风中的任一麦克风若接收到开始记录会议指令,则开始对当前会议语音进行录音;离线存储模块,若接收到停止记录会议指令,则停止录音,将开始至停止的这段时间的录音打包生成语音包并离线存储至存储器中;检测网络模块,当存储器存储的多个语音包的占用容量累加达到第一预设容量时,检测网络传输状态是否达到预设网络标准;转写模块,若达到预设网络标准则将存储器中存储的多段会议语音通过网络传输至转写服务器,转写服务器按照录音时间的顺序生成对应文字文本;生成会议文模块,根据文字文本整理生成会议文本;替换模块,将讲话者的名称替换麦克风编号生成最终会议文本。
[0012]基于第二方面,在本专利技术的一些实施例中,还包括:断句模块,讲话者输出语音时的中止时间超过预设时间,则进行断句。
[0013]第三方面,本专利技术提供一种电子设备,包括:至少一个处理器、至少一个存储器和数据总线;其中:上述处理器与上述存储器通过上述数据总线完成相互间的通信;上述存储器存储有可被上述处理器执行的程序指令,上述处理器调用上述程序指令以执行上述的方法。
[0014]第四方面,本专利技术提供一种非暂态计算机可读存储介质,上述非暂态计算机可读存储介质存储计算机程序,上述计算机程序使上述计算机执行上述的方法。
[0015]本专利技术实施例至少具有如下优点或有益效果:1、多人参与的远程视频会议,如钉钉会议、微信群聊会议等,需要记录多个讲话者和讲话者对应的语音内容,现有技术中通过音色识别对应的讲话者,需要硬件要求很高,且存在识别错误的情况,因此,本专利技术对参会的各麦克风进行编号,每个麦克风编号唯一,记录麦克风编号及该麦克风发出的语音,待生成会议文本后将讲话者的名称替换麦克风编号生成最终会议文本;操作简单,且不会存在识别错误的情况。
[0016]2、参会者需要对会议内容进行回顾调阅,虽然可以全程录制会议,但是录制整个
会议过程以及把一个会议视频全部看完或会议音频全部听完耗时耗力,需要拉进度条或快进播放定位会议的重点内容,容易遗漏重点内容,且费时费力,保存整个会议的音频或视频也会耗费大量内存;本专利技术中,参会的麦克风中的任一麦克风若接收到开始记录会议指令,则开始对当前会议语音进行录音;若接收到停止记录会议指令,则停止录音,将开始至停止的这段时间的录音打包生成语音包并离线存储至存储器中。开始记录会议指令可以是一个快捷键,当其中一参会者觉得讲话者要说的内容对自己很重要时,则按下快捷键进行录音,直至要讲的内容对于自己并不重要时则可以停止录音。可以快速定位会议的重点内容,且只需要保持会议重点音频或视频即可,节约内存。
[0017]3、现有技术中通常是在整个会议结束后才开始进行音频转写,参会人员需要等待较长的时间才能得到文字文本,本专利技术中,当存储器存储的多个语音包的占用容量累加达到第一预设容量时,检测网络传输状态是否达到预设网络标准;第一预设容量可以是10M、20M、50M等,当达到第一预设容量时就可以发送,能够一边开会议一边发生音频。
[0018]4、现有技术中,录制语音后需要将音频上传至转写服务器以生成文字,当参会者所在地网络状态欠佳时,若强行将音频通过网络发送给转写服务器会出现数据丢失等情况。本专利技术中,若达到预设网络标准则将存储器中存储的多段会议语音通过网络传输至转写服务器,转写服务器按照录音时间的顺序生成对应文字文本;达到预设网络标准再传输会议语音,避免数据丢失。
附图说明
[0019]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0020]图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频会议语音识别方法,其特征在于,包括:S1:对参会的麦克风进行编号,每个麦克风编号唯一;S2:参会的麦克风中的任一麦克风若接收到开始记录会议指令,则开始对当前会议语音进行录音;S3:若接收到停止记录会议指令,则停止录音,将开始至停止的这段时间的录音打包生成语音包并离线存储至存储器中;S4:重复S2

S3,当存储器存储的多个语音包的占用容量累加达到第一预设容量时,检测网络传输状态是否达到预设网络标准;S5:若达到预设网络标准则将存储器中存储的多段会议语音通过网络传输至转写服务器,转写服务器按照录音时间的顺序生成对应文字文本;S6:重复步骤S2

S5,直至会议结束,根据文字文本整理生成会议文本;S7:将讲话者的名称替换麦克风编号生成最终会议文本。2.根据权利要求1所述的一种视频会议语音识别方法,其特征在于,步骤S3中所述将开始至停止的这段时间的录音打包生成语音包并离线存储至存储器中包括:对讲话者输出的语音进行断句,所述断句的方法包括:讲话者输出语音时的中止时间超过预设时间,则进行断句。3.根据权利要求1所述的一种视频会议语音识别方法,其特征在于,步骤S5还包括:将文字文本发送给对应的讲话者进行审核。4.根据权利要求3所述的一种视频会议语音识别方法,其特征在于,所述审核的方法包括:判断转写服务器转写的文字是否准确,讲话者对转写不准确的文字进行手动编辑替换。5.根据权利要求1所述的一种视频会议语音识别方法,其特征在于,步骤S2中对当前会议语音进行录音的步骤包括:录音时检测讲话者输出的语音音量大小,若音...

【专利技术属性】
技术研发人员:李鹏
申请(专利权)人:北京鼎天宏盛科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1