当前位置: 首页 > 专利查询>徐涌专利>正文

音频角色分割与识别文字的交互系统、方法、终端及介质技术方案

技术编号:19062223 阅读:27 留言:0更新日期:2018-09-29 13:16
本发明专利技术公开了一种对话音频角色分割与识别文字的交互系统,包括服务器和用户终端,服务器包括语音处理模块、语音识别文字模块和输出模块,语音处理模块被配置为对待识别对话音频数据流进行播放;获取用户终端对语音角色的分配操作并识别语音角色分配;按角色对音频数据流进行标记;根据角色标记分割出不同角色所对应的音频数据流;语音识别文字模块被配置为将不同角色的音频数据流识别为文字信息;输出模块被配置为输出文字信息。服务器根据用户终端对角色的区分进行标记、分割,再将分割的语音数据流转换成对应的文字信息输出,实现自动对不同角色的对话音频进行分割和文字转换,快速、高效、准确地实现对话音频角色分割和文字识别。

【技术实现步骤摘要】
音频角色分割与识别文字的交互系统、方法、终端及介质
本专利技术涉及音频识别
,具体涉及一种对话音频角色分割与识别文字的交互系统、方法、终端及介质。
技术介绍
现有的自动识别对话角色并进行语音分割和角色归属的技术还存在精度不高的问题,难免存在识别和切割不准确的情况发生,还需要搭配手动切割语音与分配角色来进行精调,现有的手动实现音频分割的交互方式主要为在一段音频内设置起始和结束分割点,再把音频截取出来,但无法自动把分割出来的对话进行角色归属,且同时将语音转为文字内容。也就是说,需要实现分割语音、分配语音所属角色和将语音转为文字内容功能的交互方式目前尚未被整合,操作起来效率较低。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的之一在于提供一种对话音频角色分割与识别文字的交互系统,实现自动对不同角色的对话音频进行分割和文字转换,快速、高效、准确地实现对话音频角色分割和文字识别。第一方面,本专利技术实施例提供的对话音频角色分割与识别文字的交互系统,包括服务器和用户终端,所述服务器接收用户终端发送的待识别对话音频数据流;所述服务器包括语音处理模块、语音识别文字模块和输出模块,所述语音处理模块被配置为对待识别对话音频数据流进行播放;获取用户终端对语音角色的分配操作并识别语音角色分配;按角色对音频数据流进行标记;根据角色标记分割出不同角色所对应的音频数据流;所述语音识别文字模块被配置为将不同角色的音频数据流识别为文字信息;所述输出模块被配置为输出文字信息。可选地,所述语音处理模块包括语音播放模块,所述语音播放模块被配置为播放待识别对话音频数据流。可选地,所述语音处理模块还包括角色标记模块,所述角色标记模块被配置为根据所述语音角色分配信息对播放的音频数据流进行角色标记,且记录角色标记所对应的音频数据流的时间点。可选地,所述语音处理模块还包括语音分割模块,所述语音分割模块被配置为将相邻时间点的音频数据流被标记为不同角色的音频数据流进行分割处理,对相邻时间点的音频数据流被标记为同一角色的相邻音频数据流则不进行分割处理,分割出不同角色对应的音频数据流。第二方面,本专利技术实施例提供的音频角色分割与识别文字的交互方法,具体包括以下步骤:服务器接收并获取用户终端发送的待识别对话音频数据流;服务器获取用户终端对所述待识别对话音频数据流进行编辑请求;服务器对待识别对话音频数据流进行播放;服务器获取用户终端对语音角色的分配操作并识别语音角色分配,将对话音频数据流按所述角色分配对对话音频数据流进行角色标记,并记录角色标记所对应的音频数据流的时间点;服务器根据角色标记分割出不同角色所对应的音频数据流;服务器将所述不同角色所对应的音频数据流进行识别转换为文字信息;服务器输出所述文字信息。可选地,所述服务器根据角色标记分割出不同角色所对应的音频数据流的具体方法包括:将相邻时间点的音频数据流被标记为不同角色的音频数据流进行分割处理,对相邻时间点的音频数据流被标记为同一角色的相邻音频数据流则不进行分割处理。第三方面,本专利技术实施例提供的移动终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述方法。第四方面,本专利技术实施例提供的计算机可读存储介质,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述方法。本专利技术的有益效果:本专利技术实施例提供的对话音频角色分割与识别文字的交互系统、方法、终端及介质,通过获取用户在用户终端上的操作交互手势获取用户对角色的区分,服务器根据用户终端对角色的区分对对话音频数据流进行角色标记、分割,再将分割的语音数据流转换成对应的文字信息输出,实现自动对不同角色的对话音频进行分割和文字转换,快速、高效、准确地实现对话音频角色分割和文字识别。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。图1示出了本专利技术提供的一种对话音频角色分割与识别文字的交互系统的第一实施例的原理框图;图2示出了本专利技术提供的对话音频角色分割与识别文字的交互系统的第二实施例的原理框图;图3示出了本专利技术提供的对话音频角色分割与识别文字的交互方法的第一实施例的流程图;图4示出了本专利技术提供的移动终端的第一实施例的结构示意图。具体实施方式下面将结合附图对本专利技术技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,因此只是作为示例,而不能以此来限制本专利技术的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本专利技术所属领域技术人员所理解的通常意义。如图1所示,示出了本专利技术提供的一种对话音频角色分割与识别文字的交互系统的第一实施例的原理框图,该系统包括服务器1和用户终端2,所述服务器1接收用户终端2发送的待识别对话音频数据流;所述服务器1包括语音处理模块11、语音识别文字模块12和输出模块13,所述语音处理模块11被配置为对待识别对话音频数据流进行播放;获取用户终端2对语音角色的分配操作并识别语音角色分配;按角色对音频数据流进行标记;根据角色标记分割出不同角色所对应的音频数据流;所述语音识别文字模块12被配置为将不同角色的音频数据流识别为文字信息;所述输出模块13被配置为输出文字信息。用户终端向服务器发送待识别的对话音频数据流,服务器接收并获取待识别对话音频数据流,对话音频为A和B两个角色的对话语音片段。用户通过用户终端发送编辑待识别对话音频的请求,服务器向用户终端反馈对话音频编辑页面,服务器的语音处理模块对待识别对话音频数据流进行播放,用户判断对话音频角色,用户听完一句,判断这句话是A说的,然后在用户终端语音编辑页面上按下A角色控键,语音处理模块将该段视频数据流的对话角色标记为A角色,用户继续播放对话音频数据流,用户听完一句,判断这句话是B说的,在用户终端编辑页面上按下B角色控键,语音处理模块将该段音频数据流的对话角色标记为B角色,然后继续播放,按照上述方法继续对角色进行标记,对话音频播放完毕后,语音处理模块将被标记为不同角色的音频数据进行分割,用户按下语音转文字控键,语音识别文字模块将分割后的音频数据流进行语音转换为文字信息处理,识别出语音对应的文字信息,输出模块输出识别出的文字信息。本专利技术实施例的对话音频角色分割与识别文字的交互系统,通过获取用户在用户终端上的操作交互手势获取用户对角色的区分,服务器根据用户终端对角色的区分进行标记、分割,再将分割的语音数据流转换成对应的文字信息输出,实现自动对不同角色的对话音频进行分割和文字转换,快速、高效、准确地实现对话音频角色分割和文字识别。如图2所示,示出了本专利技术提供的对话音频角色分割与识别文字的交互系统的第二实施例的原理框图,与第一实施例不同之处在于,语音处理模块11包括语音播放模块111、角色标记模块112和语音分割模块113,所述语音播放模块111被配置为播放待识别对话音频数据流;所述角色标记模块112被配置为根据所述语音本文档来自技高网...

【技术保护点】
1.一种对话音频角色分割与识别文字的交互系统,其特征在于,包括服务器和用户终端,所述服务器接收用户终端发送的待识别对话音频数据流;所述服务器包括语音处理模块、语音识别文字模块和输出模块,所述语音处理模块被配置为对待识别对话音频数据流进行播放;获取用户终端对语音角色的分配操作并识别语音角色分配;按角色对音频数据流进行标记;根据角色标记分割出不同角色所对应的音频数据流;所述语音识别文字模块被配置为将不同角色的音频数据流识别为文字信息;所述输出模块被配置为输出文字信息。

【技术特征摘要】
1.一种对话音频角色分割与识别文字的交互系统,其特征在于,包括服务器和用户终端,所述服务器接收用户终端发送的待识别对话音频数据流;所述服务器包括语音处理模块、语音识别文字模块和输出模块,所述语音处理模块被配置为对待识别对话音频数据流进行播放;获取用户终端对语音角色的分配操作并识别语音角色分配;按角色对音频数据流进行标记;根据角色标记分割出不同角色所对应的音频数据流;所述语音识别文字模块被配置为将不同角色的音频数据流识别为文字信息;所述输出模块被配置为输出文字信息。2.如权利要求1所述的对话音频角色分割与识别文字的交互系统,其特征在于,所述语音处理模块包括语音播放模块,所述语音播放模块被配置为播放待识别对话音频数据流。3.如权利要求1所述的对话音频角色分割与识别文字的交互系统,其特征在于,所述语音处理模块包括角色分配识别模块,所述角色分配识别模块被配置为获取用户终端对语音角色的分配操作并识别语音角色分配信息信息。4.如权利要求3所述的对话音频角色分割与识别文字的交互系统,其特征在于,所述语音处理模块还包括角色标记模块,所述角色标记模块被配置为根据所述语音角色分配信息对播放的音频数据流进行角色标记,且记录角色标记所对应的音频数据流的时间点。5.如权利要求4所述的对话音频角色分割与识别文字的交互系统,其特征在于,所述语音处理模块还包括语音分割模块,所述语音分割模块被配置为将相邻时间点的音频数据流被标记为不同角色的音频数据流进行分割处理,对相邻时间点的音频数据流被标记为同一角...

【专利技术属性】
技术研发人员:徐涌
申请(专利权)人:徐涌
类型:发明
国别省市:广东,44

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1