一种通话音频处理方法及装置制造方法及图纸

技术编号:37618423 阅读:14 留言:0更新日期:2023-05-18 12:09
本申请提供一种通话音频处理方法及装置。所述方法包括:对通话音频进行声道分离并提取有效语音片段,识别出对应的会话文本后,将会话文本按照时间顺序进行排列,基于每个会话文本对应的角色和时间顺序提取问答对,利用语言理解模型来对问答对进行推理和预测,生成问答对的问答类型和问答结果,最终将问答相关性较高的问答对的问答结果按照问答类型聚类后,得到通话音频的关键信息。整个方法基于问答对对通话音频进行分析,更加贴近实际应用场景,结合语言理解模型对通话音频的关键信息进行自动提取,最终整理出通话音频对应的关键信息,可以极大地提升作业效率,也可以避免在智能语音系统以外进行沟通时信息的缺失,有利于业务整体进展把控。整体进展把控。整体进展把控。

【技术实现步骤摘要】
一种通话音频处理方法及装置


[0001]本申请涉及语音合成
,特别涉及一种通话音频处理方法及装置。

技术介绍

[0002]智能语音业务系统,例如:催收、电销、客服SAAS系统,具有支持人人通话和人机通话的功能,在电话销售和电话催收等重复性较高的交互场景中,人工坐席可以利用智能语音系统拨打客户的电话以实现与客户的直接通话,或者也可以依靠智能语音系统上搭载的智能语音客服与客户进行自动通话,如此人机协同形成闭环,可以有效提升作业效能。
[0003]为了系统地掌握各个业务的进展情况,人工坐席每次与客户直接通话之后,都需要对通话音频数据进行整理和关键信息记录,形成业务的催记信息或者销售信息。此外,在实际作业过程中,很多业务都是人工客服利用智能语音系统之外的电话直接拨打给客户进行的沟通,从而导致智能语音系统无法及时获取到这部分沟通信息,沟通信息的缺失会影响业务整体进展的监控,因而也需要人工来对缺失的沟通信息进行补充和汇总,整体作业效率较低。
[0004]由此可以看出,如何从通话音频中自动提取关键信息,成为一项亟需解决的问题。

技术实现思路

[0005]本申请提供了一种通话音频处理方法及装置,可用于解决现有智能语音系统缺乏从通话音频中自动提取关键信息的功能,仅依靠人工整理,作业效率较低的技术问题。
[0006]第一方面,本申请实施例提供一种通话音频处理方法,所述方法包括:
[0007]对待处理的通话音频进行声道分离,获取每个角色对应的单声道音频;
[0008]获取每个单声道音频所对应的多个会话文本;
[0009]基于各个会话文本在所述通话音频中的位置,将所有会话文本按照时间顺序进行排列,得到会话文本集;
[0010]基于每个所述会话文本对应的角色和时间顺序,从所述会话文本集中提取多个问答对,每个所述问答对包括问题文本和答案文本;
[0011]将所述问题文本和所述答案文本输入预先构建的语言理解模型,得到所述问答对的问答类型、问答结果和问答相关性概率;
[0012]将问答相关性概率大于预设阈值的所有问答对的问答结果,按照问答类型进行聚类,生成所述通话音频的关键信息聚类结果。
[0013]结合第一方面,在第一方面的一种可实现方式中,所述语言理解模型包括第一编码模块和第二编码模块,所述第一编码模块的输入端用于输入所述问题文本,所述第二编码模块的输入端用于输入所述答案文本;
[0014]所述第一编码模块的第一输出端与第一池化层的输入端连接,所述第一编码模块的第二输出端与双向长短期记忆网络BiLSTM层的输入端连接,所述第二编码模块的第一输出端与第二池化层的输入端连接,所述第二编码模块的第二输出端也与所述BiLSTM层的输
入端连接;
[0015]所述BiLSTM层的输出端与注意力模块的输入端连接,所述注意力模块的输出端、所述第一池化层的输出端、所述第二池化层的输出端均与全连接层的输入端连接,所述全连接层的第一输出端与第一激活层的输入端连接,所述全连接层的第二输出端与第二激活层的输入端连接,所述第一激活层的输出端用于输出所述问答对的问答类型和问答结果,所述第二激活层的输出端用于输出所述问答对的问答相关性概率。
[0016]结合第一方面,在第一方面的一种可实现方式中,所述第一编码模块和所述第二编码模块均为RoBERTa预训练模型。
[0017]结合第一方面,在第一方面的一种可实现方式中,所述将所述问题文本和所述答案文本输入预先构建的语言理解模型,得到所述问答对的问答类型、问答结果和问答相关性概率,包括:
[0018]将所述问题文本输入所述第一编码模块进行编码,得到所述问题文本的句嵌入向量和字嵌入向量;
[0019]将所述答案文本输入所述第二编码模块进行编码,得到所述答案文本的句嵌入向量和字嵌入向量;
[0020]将所述问题文本的句嵌入向量输入所述第一池化层进行池化处理,得到第一池化结果;
[0021]将所述答案文本的句嵌入向量输入所述第二池化层进行池化处理,得到第二池化结果;
[0022]将所述问题文本的字嵌入向量和所述答案文本的字嵌入向量输入所述BiLSTM层进行语义识别,得到输出向量;
[0023]将所述输出向量输入所述注意力模块进行各位置的权重计算和对各个位置词语的向量进行加权处理,得到句子表示向量;
[0024]将所述第一池化结果、所述第二池化结果和所述句子表示向量输入所述全连接层进行拼接,得到拼接向量;
[0025]将所述拼接向量输入所述第一激活层进行分类,得到所述问答对的问答类型和问答结果;
[0026]将所述拼接向量输入所述第二激活层进行相关性预测,得到所述问答对的问答相关性概率。
[0027]结合第一方面,在第一方面的一种可实现方式中,所述基于每个所述会话文本对应的角色和时间顺序,从所述会话文本集中提取多个问答对,包括:
[0028]利用预设问题答案判定规则对所述会话文本集中各个会话文本进行分类,得到各个问题文本和答案文本;
[0029]以第一角色对应的问题文本的会话发起时刻为起始,将所述第一角色对应的问题文本与第二角色对应的答案文本,确定为一个问答对,其中,所述第二角色对应的答案文本为所述第二角色发起的、时间顺序位于所述第一角色对应的问题文本之后,并且位于所述第一角色对应的下一个问题文本的会话发起时刻之前的答案文本;
[0030]按照对话时间顺序从早到晚的顺序从所述会话文本集中依次提取多个问答对。
[0031]结合第一方面,在第一方面的一种可实现方式中,所述对待处理的通话音频进行
声道分离,获取每个角色对应的单声道音频,包括:
[0032]利用预设SoX工具提取待处理的通话音频中各个音频通道的音频,得到各个单声道音频,其中,不同单声道音频对应不同的角色。
[0033]结合第一方面,在第一方面的一种可实现方式中,所述获取每个单声道音频所对应的多个会话文本,包括:
[0034]提取每个单声道音频中非静音的多个语音片段;
[0035]获取每个语音片段对应的会话文本。
[0036]第二方面,本申请实施例提供一种通话音频处理装置,应用于智能语音系统,所述装置包括:
[0037]声道分离模块,被配置为对待处理的通话音频进行声道分离,获取每个角色对应的单声道音频;
[0038]语音识别模块,被配置为获取每个单声道音频所对应的多个会话文本;
[0039]会话文本整理模块,被配置为基于各个会话文本在所述通话音频中的位置,将所有会话文本按照时间顺序进行排列,得到会话文本集;
[0040]问答对提取模块,被配置为基于每个所述会话文本对应的角色和时间顺序,从所述会话文本集中提取多个问答对,每个所述问答对包括问题文本和答案文本;
[0041]预测模块,被配置为将所述问题文本和所述答案文本输入预先构建的语言理解模型,得到所述问答对的问答类型、问答结果本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通话音频处理方法,其特征在于,所述方法包括:对待处理的通话音频进行声道分离,获取每个角色对应的单声道音频;获取每个单声道音频所对应的多个会话文本;基于各个会话文本在所述通话音频中的位置,将所有会话文本按照时间顺序进行排列,得到会话文本集;基于每个所述会话文本对应的角色和时间顺序,从所述会话文本集中提取多个问答对,每个所述问答对包括问题文本和答案文本;将所述问题文本和所述答案文本输入预先构建的语言理解模型,得到所述问答对的问答类型、问答结果和问答相关性概率;将问答相关性概率大于预设阈值的所有问答对的问答结果,按照问答类型进行聚类,生成所述通话音频的关键信息聚类结果。2.根据权利要求1所述的方法,其特征在于,所述语言理解模型包括第一编码模块和第二编码模块,所述第一编码模块的输入端用于输入所述问题文本,所述第二编码模块的输入端用于输入所述答案文本;所述第一编码模块的第一输出端与第一池化层的输入端连接,所述第一编码模块的第二输出端与双向长短期记忆网络BiLSTM层的输入端连接,所述第二编码模块的第一输出端与第二池化层的输入端连接,所述第二编码模块的第二输出端也与所述BiLSTM层的输入端连接;所述BiLSTM层的输出端与注意力模块的输入端连接,所述注意力模块的输出端、所述第一池化层的输出端、所述第二池化层的输出端均与全连接层的输入端连接,所述全连接层的第一输出端与第一激活层的输入端连接,所述全连接层的第二输出端与第二激活层的输入端连接,所述第一激活层的输出端用于输出所述问答对的问答类型和问答结果,所述第二激活层的输出端用于输出所述问答对的问答相关性概率。3.根据权利要求2所述的方法,其特征在于,所述第一编码模块和所述第二编码模块均为RoBERTa预训练模型。4.根据权利要求2所述的方法,其特征在于,所述将所述问题文本和所述答案文本输入预先构建的语言理解模型,得到所述问答对的问答类型、问答结果和问答相关性概率,包括:将所述问题文本输入所述第一编码模块进行编码,得到所述问题文本的句嵌入向量和字嵌入向量;将所述答案文本输入所述第二编码模块进行编码,得到所述答案文本的句嵌入向量和字嵌入向量;将所述问题文本的句嵌入向量输入所述第一池化层进行池化处理,得到第一池化结果;将所述答案文本的句嵌入向量输入所述第二池化层进行池化处理,得到第二池化结果;将所述问题文本的字嵌入向量和所述答案文本的字嵌入向量输入所述BiLSTM层进行语义识别,得到输出向量;将所述输出向量输入所述注意力模块进行各位置的权重计算和对各个位置词语的向
量进行加权处理,得到句子表示向量;将所述第一池化结果、所述第二池化结果和所述句子表示向量输入所述全连接层进行拼接,得到拼接向量;将所述拼接向量输入所述第一激活层进行分类,得到所述问答对的问答类型和问答结果;将所述拼接向量输入所述第二激活层进行相关性预测,得到所述问答对的问答相关性概率。5.根据权利要求1所述的方法,其特征在于,所述基于每个所述会话文本对应的...

【专利技术属性】
技术研发人员:先永春姚树杰
申请(专利权)人:鼎富新动力北京智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1