通话文本生成方法、装置、设备及存储介质制造方法及图纸

技术编号:29044504 阅读:16 留言:0更新日期:2021-06-26 05:56
本发明专利技术涉及音频处理领域,公开了一种通话文本生成方法、装置、设备及存储介质,该方法包括:获取对话录音文件并拆分成左声道录音文件和右声道录音文件;根据录音文件的时间戳,判断是否存在相同时间段语音;若是,则确定相同时间段语音的相同时间戳;调用自动语音识别接口,将左声道录音文件和右声道录音文件转换成对话文本,并根据相同时间戳,确定对话文本中的左声道同步文本和右声道同步文本;根据时间戳,将对话文本进行排序,生成角色通话文本;当用户播放对话录音文件时,根据时间戳,显示角色通话文本,并在相同时间戳同步显示左声道同步文本和右声道同步文本。此外,本发明专利技术还涉及区块链技术,当前对话录音文件可存储于区块链中。中。中。

【技术实现步骤摘要】
通话文本生成方法、装置、设备及存储介质


[0001]本专利技术涉及音频处理领域,尤其涉及一种通话文本生成方法、装置、设备及存储介质。

技术介绍

[0002]语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,简称ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容,现阶段,由于企业对外呼通话有质量或者其它要求,需要对外呼的语音通话进行检测,多使用语音识别技术对外呼的语音通话进行识别,转换为文本后,进行检查,采用文字的方式替换传统的录音调听模式会更高效,然而,现有的语音识别技术主要是对外呼通话的整段语音进行识别,识别不不高,同时ASR模型识别无法区分对话双方,也就是客户和工作人员,导致外呼语音通话质量的检查效率仍然较低。

技术实现思路

[0003]本专利技术的主要目的在于解决现有的语音识别无法区分对话双方,导致通话质量检查效率低的技术问题。
[0004]本专利技术第一方面提供了一种通话文本生成方法,包括:
[0005]获取对话录音文件,其中,所述对话录音文件为不同用户进行语音交流的录音音频;
[0006]根据不同用户录制所述对话录音文件时所使用的声道,将所述对话录音文件拆分成左声道录音文件和右声道录音文件;
[0007]获取所述左声道录音文件和所述右声道录音文件的时间戳,并根据所述时间戳,判断所述左声道录音文件和所述右声道录音文件是否存在相同时间段的语音;
[0008]若是,则确定所述相同时间段的语音的相同时间戳;
[0009]调用预设的自动语音识别接口,将所述左声道录音文件和所述右声道录音文件分别转换成对应的元数据文本;
[0010]将所述左声道录音文件和所述右声道录音文件对应的元数据文本分别转化为对应的对话文本,并根据所述相同时间戳,确定所述对话文本中的左声道同步文本和右声道同步文本;
[0011]根据所述时间戳,将所述左声道录音文件和所述右声道录音文件对应的对话文本进行排序,生成角色通话文本;
[0012]当用户播放所述对话录音文件时,根据所述时间戳,逐步显示所述角色通话文本,并在播放到所述相同时间戳时,同步显示所述左声道同步文本和所述右声道同步文本。
[0013]可选的,在本专利技术第一方面的第一种实现方式中,在所述获取对话录音文件之前,还包括:
[0014]获取不同用户通过对应终端发送的音频数据,其实,所述终端在进行记录时,在每一帧音频数据前均加入时间戳;
[0015]根据所述时间戳,将同一帧的音频文件组成一帧多声道音频数据;
[0016]将各帧多声道音频数据合成对话录音文件。
[0017]可选的,在本专利技术第一方面的第二种实现方式中,所述调用预设的自动语音识别接口,将所述左声道录音文件和所述右声道录音文件分别转换成对应的元数据文本包括:
[0018]调用预设的自动语音识别接口,并根据预设的时间间隔,将所述左声道录音文件和所述右声道录音文件分别转化为对应的若干段第一文本;
[0019]当所述自动语音识别接口识别所述左声道录音文件和所述右声道录音文件未识别出字符的时间长度大于预设的时间阈值时,将当前识别内容作为第二文本输出;
[0020]将所述第一文本和所述第二文本作为元数据文本。
[0021]可选的,在本专利技术第一方面的第三种实现方式中,所述确定所述相同时间段的语音的相同时间戳包括:
[0022]获取所述左声道录音文件和所述右声道录音文件的起始时间戳和结束时间戳;
[0023]将所述左声道录音文件和所述右声道录音文件的起始时间戳中最晚的起始时间戳作为相同时间段的语音的起始时间戳;
[0024]将所述左声道录音文件和所述右声道录音文件的结束时间戳中最晚的结束时间戳作为相同时间段的语音的结束时间戳;
[0025]根据相同时间段的语音的起始时间戳和结束时间戳确定相同时间戳。
[0026]可选的,在本专利技术第一方面的第四种实现方式中,在所述根据所述时间戳,将所述左声道录音文件和所述右声道录音文件对应的对话文本进行排序,生成角色通话文本之后,还包括:
[0027]将所述角色通话文本和所述对话录音文件保存至预设的文件服务器的同一文件夹中;
[0028]获取用户的播放指令,根据所述播放指令从所述文件服务器中获取所述角色通话文本和所述对话录音文件。
[0029]可选的,在本专利技术第一方面的第五种实现方式中,在所述根据所述时间戳,将所述左声道录音文件和所述右声道录音文件对应的对话文本进行排序,生成角色通话文本之后,还包括:
[0030]将所述角色通话文本进行分词处理,得到角色通话文本分词;
[0031]将所述角色通话文本分词与预设的关键词集进行匹配;
[0032]若匹配命中,则将匹配命中的角色通话文本分词在所述角色通话文本中高亮处理。
[0033]可选的,在本专利技术第一方面的第六种实现方式中,其特征在于,在所述将所述左声道录音文件和所述右声道录音文件对应的元数据文本分别转化为对应的对话文本,并根据所述相同时间戳,确定所述对话文本中的左声道同步文本和右声道同步文本之后,还包括:
[0034]将所述对话文本进行分词处理,得到对话分词;
[0035]将所述对话分词与预设的纠错列表进行匹配,其中,所述纠错列表包括若干个原词汇和偏差词汇的关联;
[0036]若所述对话分词与所述纠错列表中的偏差词汇匹配成功,则将与匹配成功的偏差词汇关联的原词汇替换所述对话分词;
[0037]根据替换后的原词汇,生成新的对话文本。
[0038]本专利技术第二方面提供了一种通话文本生成装置,包括:
[0039]获取模块,用于获取对话录音文件,其中,所述对话录音文件为不同用户进行语音交流的录音音频;
[0040]拆分模块,用于根据不同用户录制所述对话录音文件时所使用的声道,将所述对话录音文件拆分成左声道录音文件和右声道录音文件;
[0041]判断模块,用于获取所述左声道录音文件和所述右声道录音文件的时间戳,并根据所述时间戳,判断所述左声道录音文件和所述右声道录音文件是否存在相同时间段的语音;
[0042]时间戳确定模块,用于当所述左声道录音文件和所述右声道录音文件存在相同时间段的语音时,确定所述相同时间段的语音的相同时间戳;
[0043]文本转换模块,用于调用预设的自动语音识别接口,将所述左声道录音文件和所述右声道录音文件分别转换成对应的元数据文本;
[0044]元数据模块,用于将所述左声道录音文件和所述右声道录音文件对应的元数据文本分别转化为对应的对话文本,并根据所述相同时间戳,确定所述对话文本中的左声道同步文本和右声道同步文本;
[0045]排序模块,用于根据所述时间戳,将所述左声道录音文件和所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通话文本生成方法,其特征在于,所述通话文本生成方法包括:获取对话录音文件,其中,所述对话录音文件为不同用户进行语音交流的录音音频;根据不同用户录制所述对话录音文件时所使用的声道,将所述对话录音文件拆分成左声道录音文件和右声道录音文件;获取所述左声道录音文件和所述右声道录音文件的时间戳,并根据所述时间戳,判断所述左声道录音文件和所述右声道录音文件是否存在相同时间段的语音;若是,则确定所述相同时间段的语音的相同时间戳;调用预设的自动语音识别接口,将所述左声道录音文件和所述右声道录音文件分别转换成对应的元数据文本;将所述左声道录音文件和所述右声道录音文件对应的元数据文本分别转化为对应的对话文本,并根据所述相同时间戳,确定所述对话文本中的左声道同步文本和右声道同步文本;根据所述时间戳,将所述左声道录音文件和所述右声道录音文件对应的对话文本进行排序,生成角色通话文本;当用户播放所述对话录音文件时,根据所述时间戳,逐步显示所述角色通话文本,并在播放到所述相同时间戳时,同步显示所述左声道同步文本和所述右声道同步文本。2.根据权利要求1所述的通话文本生成方法,其特征在于,在所述获取对话录音文件之前,还包括:获取不同用户通过对应终端发送的音频数据,其实,所述终端在进行记录时,在每一帧音频数据前均加入时间戳;根据所述时间戳,将同一帧的音频文件组成一帧多声道音频数据;将各帧多声道音频数据合成对话录音文件。3.根据权利要求1所述的通话文本生成方法,其特征在于,所述调用预设的自动语音识别接口,将所述左声道录音文件和所述右声道录音文件分别转换成对应的元数据文本包括:调用预设的自动语音识别接口,并根据预设的时间间隔,将所述左声道录音文件和所述右声道录音文件分别转化为对应的若干段第一文本;当所述自动语音识别接口识别所述左声道录音文件和所述右声道录音文件未识别出字符的时间长度大于预设的时间阈值时,将当前识别内容作为第二文本输出;将所述第一文本和所述第二文本作为元数据文本。4.根据权利要求3所述的通话文本生成方法,其特征在于,所述确定所述相同时间段的语音的相同时间戳包括:获取所述左声道录音文件和所述右声道录音文件的起始时间戳和结束时间戳;将所述左声道录音文件和所述右声道录音文件的起始时间戳中最晚的起始时间戳作为相同时间段的语音的起始时间戳;将所述左声道录音文件和所述右声道录音文件的结束时间戳中最晚的结束时间戳作为相同时间段的语音的结束时间戳;根据相同时间段的语音的起始时间戳和结束时间戳确定相同时间戳。5.根据权利要求1所述的通话文本生成方法,其特征在于,在所述根据所述时间戳,将
所述左声道录音文件和所述右声道录音文件对应的对话文本进行排序,生成角色通话文本之后,还包括:将所述角色通话文本和所述对话录音文件保存至预设的文件服务器的同一文件夹中;获取用户的播放指令,根据所述播放指令从所述文件服务器中获取所述角色通话文本和所述对话录音文件。6.根据权利要求1所述的通话文本生...

【专利技术属性】
技术研发人员:石智凯
申请(专利权)人:平安普惠企业管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1