一种用于会议速记的人机协同编辑方法技术

技术编号:22167206 阅读:50 留言:0更新日期:2019-09-21 10:42
本发明专利技术公开了一种用于会议速记的人机协同编辑方法,包括以下步骤:1.会议速记终端按照自然句对音频流进行切割,并将音频段发送至第三方服务器,第三方服务器将音频段转换为与其对应的文本;2.会议速记终端在切割音频流时,对每一音频段的开始时间、结束时间、音频代码进行记录,并结合第三方服务器返回的该音频段对应的文本生成日志文件;3.会议速记终端将音频段、文本和日志文件发送至协同编辑服务器;4.协同编辑服务器根据日志文件将音频段和文本进行一一对应;5.人工编辑终端用于根据一一对应的音频段和文本进行会议记录的人工修正。本发明专利技术能够简单方便地根据会议音频对动态生成的会议记录的实时修正。

A Man-Machine Cooperative Editing Method for Conference Stenography

【技术实现步骤摘要】
一种用于会议速记的人机协同编辑方法
本专利技术涉及语音速记
,尤其是一种用于会议速记的人机协同编辑方法。
技术介绍
在会议过程中,由记录人员把会议的组织情况和具体内容记录下来,就形成了会议记录。最传统的形式是由记录人员现场速记并在会议结束之后根据会议录音整理核对会议记录。随着语音识别技术(ASR)和自然语言处理技术(NLP)的发展,会议中产生的音频能够在会议现场直接实时转换成文字并生成会议记录,极大地减少了记录人员的工作量。语音识别技术是将人类语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列;自然语言处理技术研究的是如何实现人与计算机之间用自然语言进行有效通信;两者相结合,就能够将人类语音转换为人类语言的书面表达形式——文本。但是,这个转换过程不能保证百分百精准,尤其对于一些没有录入系统中的术语、人物姓名等,系统没有办法判断具体应该是何字。例如输入语音“章子怡”,系统对于这个明星的姓名能够予以识别并转换成正确的文字;输入语音“张二雷”,对于这个陌生的词组,系统只能逐字音译并选择系统设置的默认选项,如系统默认“zhang”优先“章”时,语音“张二雷”可能就会被转换成文字“章二雷”,这就导致了错误的存在。当然,实际的错误不仅限于此。现有的用于会议速记的人机协同编辑方法的准确率基本在90-95%左右,对于文本中存在的错误,有必要进行修正。目前,采用的修正方式,主要还是会议结束之后,记录人员根据会议录音对会议记录进行整理核对,使得会议记录成稿的生成存在一定的延时性,存在一定的不便之处。随之容易想到的,最优的修正方式,当然是对音频转换而成的文本进行实时修改,但是存在的技术障碍是,如何实现一边音频正在录入,一边文本正在生成的同时,对文本进行及时、快速地修正,也就是如何对正在动态生成的文本进行及时、快速地修正。
技术实现思路
针对上述问题,本专利技术提供一种用于会议速记的人机协同编辑方法。一种用于会议速记的人机协同编辑方法,包括以下步骤:1.会议进行时,会议速记终端按照自然句对音频流进行切割形成音频段,并将音频段发送至第三方服务器,第三方服务器通过语音识别技术和自然语言处理技术将音频段转换为与其对应的文本;2.会议速记终端在切割音频流时,对每一音频段的开始时间、结束时间、音频代码进行记录,并结合第三方服务器返回的该音频段对应的文本生成日志文件;3.会议速记终端将音频段、文本和日志文件发送至协同编辑服务器;4.协同编辑服务器根据日志文件将音频段和文本进行一一对应;5.人工编辑终端用于根据一一对应的音频段和文本进行会议记录的人工修正。进一步的,第三方服务器包括ASR服务器和NLP服务器。进一步的,音频段时长限制在60s以内,切割音频段之间的时间间隔为0.00001ms。进一步的,会议速记终端对每一段音频和文本进行编号;若音频段没有对应的文本,会议速记终端在日志文件中予以标记。进一步的,当会议速记终端检测到网络中断时,停止向第三方服务器发送数据,并将数据暂时存放于内存中,当网络再次连接时,通过内存将数据有序发送给第三方服务器。进一步的,会议速记终端切割音频流的同时,复制音频流并发送至协同编辑服务器。进一步的,人工编辑终端具有查找、替换功能,可以直接修改某个文字或词组,也可以通过查找和替换对文本中的相同的错误进行一次性修正,并会对当前修正的内容进行特殊显示,以供记录人员查看。本专利技术的有益效果:1.会议速记终端将音频以音频段的形式传输,短小的音频段传输结束、文本转换结束后,即可对转换后的文本进行修正,从而实现了对动态生成的会议记录的实时修正;2.实现音频与文本按照自然句为单位的一一对应,使得记录人员直接点击某一段文本,该段文本对应的音频就能播放出来,协助记录人员进行判断和文本修正;3.应对断网时的处理机制,能够很好地解决网络重连后的音频发送问题。附图说明图1为会议速记系统框图;图2为音频波形示意图。具体实施方式下面结合附图和具体实施方式对本专利技术作进一步详细的说明。本专利技术的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本专利技术限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本专利技术的原理和实际应用,并且使本领域的普通技术人员能够理解本专利技术从而设计适于特定用途的带有各种修改的各种实施例。实施例1一种用于会议速记的人机协同编辑方法,提及到的硬件设备有会议速记终端、第三方服务器、协同编辑服务器、人工编辑终端。在本实施例中,第三方服务器包括ASR服务器和NLP服务器。硬件设备直接的连接关系如图1所示。会议速记终端是放置于会议现场,对会议音频进行收录和预处理的独立设备;人工编辑终端是安装了特定软件的台式机、笔记本等设备,所述特定软件指的是能够实现其必备功能的软件。所述人工编辑终端与所述会议速记终端可以位于不同地点,例如会议开在北京,记录人员在上海进行会议记录的修正。会议速记终端、ASR服务器、NLP服务器、人工编辑终端之间的连接方式可以采用但不限于有线网络、WiFi网络、4G网络。本实施例公开的人机协同编辑方法,包括以下步骤:一、会议进行时,会议速记终端按照自然句对音频流进行切割形成音频段,并将音频段发送至第三方服务器,第三方服务器通过语音识别技术和自然语言处理技术将音频段转换为与其对应的文本。第三方服务器包括ASR服务器和NLP服务器,会议速记终端将音频段发送至ASR服务器,ASR服务器将音频段内容转换成一次文本并返回至会议速记终端,会议速记终端再将ASR服务器返回的一次文本发送至NLP服务器,NLP服务器用于将ASR服务器生成的一次文本按照自然语言进行自动修正,并将修正后的二次文本返回至会议速记终端。ASR服务器将音频段内容转换成一次文本,这个转换过程中是机械式的转换,其中存在为数不少的错别字(多为同音字错误);NLP服务器对一次文本按照自然语言进行自动修正,这个转换过程就是基于人类自然语言的习惯,对一次文本进行自动纠错的过程。NLP服务器返回至会议速记终端的二次文本,正确率可达90-95%,但是仍存在一定的错误率。人在正常说话时是有停顿的,本实施例中的自然句指的是相邻停顿之间的这句话,如图2中的“我那黄河一样粗狂的声音”、“不光响在联合国的大厦里”。按照自然句进行音频流切割,一是可以保证音频信息地完整性,防止音频数据丢失的情况发生;二是减少音频发送过程中占用的带宽,便于音频快速到达语音文本转换服务器,减少因网络塞车导致音频堵塞于发往语音文本转换服务器的路途当中,这就好比在一条拥堵的马路上,自行车、电瓶车,尤其是行人,可以从汽车缝隙中穿梭,网络传输同理。当检测到一段时间内没有音频波动,就对音频流进行切割,然后在0.00001ms后继续开始处理。将音频段之间的间隔设置为0.00001ms,是为了尽可能减少音频的丢失和错位。例如,5s音频中间包含一个音频段间隔,若音频段间隔为0.1ms,则平均下来,1h音频会产生72ms偏差,4h音频产生的偏差达288ms;若音频段间隔为0.00001ms,则平均下来,1h音频仅产生0.0072ms偏差,4h音频产生的偏差也仅为0.0288ms。如果在60s内都没有检测到足够长时间的停顿,那么强行对音频流进行本文档来自技高网
...

【技术保护点】
1.一种用于会议速记的人机协同编辑方法,其特征在于,包括以下步骤:步骤1,会议进行时,会议速记终端按照自然句对音频流进行切割形成音频段,并将音频段发送至第三方服务器,第三方服务器通过语音识别技术和自然语言处理技术将音频段转换为与其对应的文本;步骤2,会议速记终端在切割音频流时,对每一音频段的开始时间、结束时间、音频代码进行记录,并结合第三方服务器返回的该音频段对应的文本生成日志文件;步骤3,会议速记终端将音频段、文本和日志文件发送至协同编辑服务器;步骤4,协同编辑服务器根据日志文件将音频段和文本进行一一对应;步骤5,人工编辑终端用于根据一一对应的音频段和文本进行会议记录的人工修正。

【技术特征摘要】
1.一种用于会议速记的人机协同编辑方法,其特征在于,包括以下步骤:步骤1,会议进行时,会议速记终端按照自然句对音频流进行切割形成音频段,并将音频段发送至第三方服务器,第三方服务器通过语音识别技术和自然语言处理技术将音频段转换为与其对应的文本;步骤2,会议速记终端在切割音频流时,对每一音频段的开始时间、结束时间、音频代码进行记录,并结合第三方服务器返回的该音频段对应的文本生成日志文件;步骤3,会议速记终端将音频段、文本和日志文件发送至协同编辑服务器;步骤4,协同编辑服务器根据日志文件将音频段和文本进行一一对应;步骤5,人工编辑终端用于根据一一对应的音频段和文本进行会议记录的人工修正。2.根据权利要求1所述的人机协同编辑方法,其特征在于,第三方服务器包括ASR服务器和NLP服务器。3.根据权利要求1或2所述的人机协同编辑方法,其特征在于,音频段时长限制在60s以内,切割音频段之间的...

【专利技术属性】
技术研发人员:虞焰兴徐勇
申请(专利权)人:安徽声讯信息技术有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1