【技术实现步骤摘要】
通话文本生成方法、装置、设备及存储介质
[0001]本专利技术涉及音频处理领域,尤其涉及一种通话文本生成方法、装置、设备及存储介质。
技术介绍
[0002]语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,简称ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容,现阶段,由于企业对外呼通话有质量或者其它要求,需要对外呼的语音通话进行检测,多使用语音识别技术对外呼的语音通话进行识别,转换为文本后,进行检查,采用文字的方式替换传统的录音调听模式会更高效,然而,现有的语音识别技术主要是对外呼通话的整段语音进行识别,识别不不高,同时ASR模型识别无法区分对话双方,也就是客户和工作人员,导致外呼语音通话质量的检查效率仍然较低。
技术实现思路
[0003]本专利技术的主要目的在于解决现有的语音识别无法区分对话双方,导致通话质量检查效率低的技术问题。
[0004]本专利技术第一方面提供了一种通话文本生成方法,包括:
[0005]获取对话录音文件,其中,所述对话录音文件为不同用户进行语音交流的录音音频;
[0006]根据不同用户录制所述对话录音文件时所使用的声道,将所述对话录音文件拆分成左声道录音文件和右声道录音文件;
[0007]获取所述左声道录音文件和所述右声道录音文件的时间戳,并根据所述时间戳,判断所述 ...
【技术保护点】
【技术特征摘要】
1.一种通话文本生成方法,其特征在于,所述通话文本生成方法包括:获取对话录音文件,其中,所述对话录音文件为不同用户进行语音交流的录音音频;根据不同用户录制所述对话录音文件时所使用的声道,将所述对话录音文件拆分成左声道录音文件和右声道录音文件;获取所述左声道录音文件和所述右声道录音文件的时间戳,并根据所述时间戳,判断所述左声道录音文件和所述右声道录音文件是否存在相同时间段的语音;若是,则确定所述相同时间段的语音的相同时间戳;调用预设的自动语音识别接口,将所述左声道录音文件和所述右声道录音文件分别转换成对应的元数据文本;将所述左声道录音文件和所述右声道录音文件对应的元数据文本分别转化为对应的对话文本,并根据所述相同时间戳,确定所述对话文本中的左声道同步文本和右声道同步文本;根据所述时间戳,将所述左声道录音文件和所述右声道录音文件对应的对话文本进行排序,生成角色通话文本;当用户播放所述对话录音文件时,根据所述时间戳,逐步显示所述角色通话文本,并在播放到所述相同时间戳时,同步显示所述左声道同步文本和所述右声道同步文本。2.根据权利要求1所述的通话文本生成方法,其特征在于,在所述获取对话录音文件之前,还包括:获取不同用户通过对应终端发送的音频数据,其实,所述终端在进行记录时,在每一帧音频数据前均加入时间戳;根据所述时间戳,将同一帧的音频文件组成一帧多声道音频数据;将各帧多声道音频数据合成对话录音文件。3.根据权利要求1所述的通话文本生成方法,其特征在于,所述调用预设的自动语音识别接口,将所述左声道录音文件和所述右声道录音文件分别转换成对应的元数据文本包括:调用预设的自动语音识别接口,并根据预设的时间间隔,将所述左声道录音文件和所述右声道录音文件分别转化为对应的若干段第一文本;当所述自动语音识别接口识别所述左声道录音文件和所述右声道录音文件未识别出字符的时间长度大于预设的时间阈值时,将当前识别内容作为第二文本输出;将所述第一文本和所述第二文本作为元数据文本。4.根据权利要求3所述的通话文本生成方法,其特征在于,所述确定所述相同时间段的语音的相同时间戳包括:获取所述左声道录音文件和所述右声道录音文件的起始时间戳和结束时间戳;将所述左声道录音文件和所述右声道录音文件的起始时间戳中最晚的起始时间戳作为相同时间段的语音的起始时间戳;将所述左声道录音文件和所述右声道录音文件的结束时间戳中最晚的结束时间戳作为相同时间段的语音的结束时间戳;根据相同时间段的语音的起始时间戳和结束时间戳确定相同时间戳。5.根据权利要求1所述的通话文本生成方法,其特征在于,在所述根据所述时间戳,将
所述左声道录音文件和所述右声道录音文件对应的对话文本进行排序,生成角色通话文本之后,还包括:将所述角色通话文本和所述对话录音文件保存至预设的文件服务器的同一文件夹中;获取用户的播放指令,根据所述播放指令从所述文件服务器中获取所述角色通话文本和所述对话录音文件。6.根据权利要求1所述的通话文本生...
【专利技术属性】
技术研发人员:石智凯,
申请(专利权)人:平安普惠企业管理有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。