【技术实现步骤摘要】
一种通话音频处理方法及装置
[0001]本申请涉及语音合成
,特别涉及一种通话音频处理方法及装置。
技术介绍
[0002]智能语音业务系统,例如:催收、电销、客服SAAS系统,具有支持人人通话和人机通话的功能,在电话销售和电话催收等重复性较高的交互场景中,人工坐席可以利用智能语音系统拨打客户的电话以实现与客户的直接通话,或者也可以依靠智能语音系统上搭载的智能语音客服与客户进行自动通话,如此人机协同形成闭环,可以有效提升作业效能。
[0003]为了系统地掌握各个业务的进展情况,人工坐席每次与客户直接通话之后,都需要对通话音频数据进行整理和关键信息记录,形成业务的催记信息或者销售信息。此外,在实际作业过程中,很多业务都是人工客服利用智能语音系统之外的电话直接拨打给客户进行的沟通,从而导致智能语音系统无法及时获取到这部分沟通信息,沟通信息的缺失会影响业务整体进展的监控,因而也需要人工来对缺失的沟通信息进行补充和汇总,整体作业效率较低。
[0004]由此可以看出,如何从通话音频中自动提取关键信息,成为一项亟需解决的问题。
技术实现思路
[0005]本申请提供了一种通话音频处理方法及装置,可用于解决现有智能语音系统缺乏从通话音频中自动提取关键信息的功能,仅依靠人工整理,作业效率较低的技术问题。
[0006]第一方面,本申请实施例提供一种通话音频处理方法,所述方法包括:
[0007]对待处理的通话音频进行声道分离,获取每个角色对应的单声道音频;
[0008]获取每个单 ...
【技术保护点】
【技术特征摘要】
1.一种通话音频处理方法,其特征在于,所述方法包括:对待处理的通话音频进行声道分离,获取每个角色对应的单声道音频;获取每个单声道音频所对应的多个会话文本;基于各个会话文本在所述通话音频中的位置,将所有会话文本按照时间顺序进行排列,得到会话文本集;基于每个所述会话文本对应的角色和时间顺序,从所述会话文本集中提取多个问答对,每个所述问答对包括问题文本和答案文本;将所述问题文本和所述答案文本输入预先构建的语言理解模型,得到所述问答对的问答类型、问答结果和问答相关性概率;将问答相关性概率大于预设阈值的所有问答对的问答结果,按照问答类型进行聚类,生成所述通话音频的关键信息聚类结果。2.根据权利要求1所述的方法,其特征在于,所述语言理解模型包括第一编码模块和第二编码模块,所述第一编码模块的输入端用于输入所述问题文本,所述第二编码模块的输入端用于输入所述答案文本;所述第一编码模块的第一输出端与第一池化层的输入端连接,所述第一编码模块的第二输出端与双向长短期记忆网络BiLSTM层的输入端连接,所述第二编码模块的第一输出端与第二池化层的输入端连接,所述第二编码模块的第二输出端也与所述BiLSTM层的输入端连接;所述BiLSTM层的输出端与注意力模块的输入端连接,所述注意力模块的输出端、所述第一池化层的输出端、所述第二池化层的输出端均与全连接层的输入端连接,所述全连接层的第一输出端与第一激活层的输入端连接,所述全连接层的第二输出端与第二激活层的输入端连接,所述第一激活层的输出端用于输出所述问答对的问答类型和问答结果,所述第二激活层的输出端用于输出所述问答对的问答相关性概率。3.根据权利要求2所述的方法,其特征在于,所述第一编码模块和所述第二编码模块均为RoBERTa预训练模型。4.根据权利要求2所述的方法,其特征在于,所述将所述问题文本和所述答案文本输入预先构建的语言理解模型,得到所述问答对的问答类型、问答结果和问答相关性概率,包括:将所述问题文本输入所述第一编码模块进行编码,得到所述问题文本的句嵌入向量和字嵌入向量;将所述答案文本输入所述第二编码模块进行编码,得到所述答案文本的句嵌入向量和字嵌入向量;将所述问题文本的句嵌入向量输入所述第一池化层进行池化处理,得到第一池化结果;将所述答案文本的句嵌入向量输入所述第二池化层进行池化处理,得到第二池化结果;将所述问题文本的字嵌入向量和所述答案文本的字嵌入向量输入所述BiLSTM层进行语义识别,得到输出向量;将所述输出向量输入所述注意力模块进行各位置的权重计算和对各个位置词语的向
量进行加权处理,得到句子表示向量;将所述第一池化结果、所述第二池化结果和所述句子表示向量输入所述全连接层进行拼接,得到拼接向量;将所述拼接向量输入所述第一激活层进行分类,得到所述问答对的问答类型和问答结果;将所述拼接向量输入所述第二激活层进行相关性预测,得到所述问答对的问答相关性概率。5.根据权利要求1所述的方法,其特征在于,所述基于每个所述会话文本对应的...
【专利技术属性】
技术研发人员:先永春,姚树杰,
申请(专利权)人:鼎富新动力北京智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。