一种多模态语音通话信息抽取方法及系统技术方案

技术编号:34768118 阅读:28 留言:0更新日期:2022-08-31 19:23
本发明专利技术提供了一种多模态语音通话信息抽取方法及系统,所述多模态语音通话信息抽取方法包括:S1、获取音频文件:获取语音通话的音频文件;S2、提取语音特征:提取音频的能量特征、时域特征、频域特征和乐理特征;S3、提取语义特征:通过语音识别技术将音频转录成文字,再利用自然语言处理技术,对文本内容进行分析和理解;S4、提取交互特征:通过语音分析,提取音频中说话人的交互特征。本发明专利技术通过提取通话数据中的语音、语义、交互等多模态特征信息进行组合,形成一个多模态的语音通话特征集,可应用于众多下游任务的分析,具有广泛的应用前景。具有广泛的应用前景。具有广泛的应用前景。

【技术实现步骤摘要】
一种多模态语音通话信息抽取方法及系统


[0001]本专利技术涉及语音特征提取领域,具体涉及一种多模态语音通话信息抽取方法及系统。

技术介绍

[0002]随着语音识别、语音合成、对话系统等技术的发展,智能电话客服得以应用在越来越多的电话业务当中。智能外呼系统也极大增加了通话的数量,成千上万的电话通话录音也在不间断地产生。
[0003]在这一背景下,如何从海量的通话数据中提取有效的信息,来辅助分析客户行为意愿,是摆在众多服务提供商面前的一大难题。

技术实现思路

[0004]本专利技术的目的在于针对现有技术中的问题,提供一种多模态语音通话信息抽取方法及系统,以提取通话数据中的语音、语义、交互等多模态特征信息,使之能够用于众多下游任务。
[0005]为实现上述目的,本专利技术采用以下技术方案:
[0006]一种多模态语音通话信息抽取方法,包括:
[0007]S1、获取音频文件:获取语音通话的音频文件;
[0008]S2、提取语音特征:提取音频的能量特征、时域特征、频域特征和乐理特征;
[0009]S3、提取语义特征:通过语音识别技术将音频转录成文字,再利用自然语言处理技术,对文本内容进行分析和理解;
[0010]S4、提取交互特征:通过语音分析,提取音频中说话人的交互特征。
[0011]进一步地,在S2中,使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC)。
[0012]进一步地,所述S3具体包括:
[0013]S301、音频去噪:对音频进行去噪处理;
[0014]S302、端点检测:采用端点检测技术,将连续的通话内容切分成独立的语音片段,并去除静音片段;
[0015]S303、语音分离:采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
[0016]S304、声纹识别:采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
[0017]S305、语音识别:采用语音识别技术,将音频数据转录成文本;
[0018]S306、标点符号生成:采用标点符号生成技术,对文本进行语义重组和断句,给文本内容加上标点符号;
[0019]S307、语义理解:采用意图理解技术和实体识别技术,对文本内容进行分析,获取文本意图和关键的实体;
[0020]S308、语义特征输出:将S307中获取到的语义标签信息输出。
[0021]进一步地,在S4中,所述说话人的交互特征包括整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长、语速、通话质量和通话环境质量。
[0022]进一步地,所述S4具体包括:
[0023]S401、语音分离:采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
[0024]S402、声纹识别:采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
[0025]S403、端点检测:采用端点检测技术,获取每段话的开始与结束时间,以计算整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长;
[0026]S404、语速检测:通过语速检测,获取每个说话人的每段话的语速;
[0027]S405、噪声检测:通过噪声检测,获取每个说话人的通话质量以及通话环境质量;
[0028]S406、交互特征输出:将从S401至S405中获取到的交互特征汇总输出。
[0029]一种多模态语音通话信息抽取系统,包括:
[0030]音频文件获取模块,用于获取语音通话的音频文件;
[0031]语音特征提取模块,用于提取音频的能量特征、时域特征、频域特征和乐理特征;
[0032]语义特征提取模块:用于通过语音识别技术将音频转录成文字,再利用自然语言处理技术,对文本内容进行分析和理解;
[0033]交互特征提取模块,用于通过语音分析,提取音频中说话人的交互特征。
[0034]进一步地,在语音特征提取模块中,使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC),梅尔频率倒谱系数中即包含了音频的能量特征、时域特征、频域特征和乐理特征。
[0035]进一步地,所述语义特征提取模块包括:
[0036]音频去噪子模块,用于对音频进行去噪处理;
[0037]端点检测子模块,用于采用端点检测技术,将连续的通话内容切分成独立的语音片段,并去除静音片段;
[0038]语音分离子模块,用于采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
[0039]声纹识别子模块,用于采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
[0040]语音识别子模块,用于采用语音识别技术,将音频数据转录成文本;
[0041]标点符号生成子模块,用于采用标点符号生成技术,对文本进行语义重组和断句,给文本内容加上标点符号;
[0042]语义理解子模块,用于采用意图理解技术和实体识别技术,对文本内容进行分析,获取文本意图和关键的实体;
[0043]语义特征输出子模块,用于将S307中获取到的语义标签信息输出。
[0044]进一步地,在交互特征提取模块中,提取的说话人的交互特征包括整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长、语速、通话质量和通话环境质量。
[0045]进一步地,所述交互特征提取模块包括:
[0046]语音分离子模块,用于采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
[0047]声纹识别子模块,用于采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
[0048]端点检测子模块,用于采用端点检测技术,获取每段话的开始与结束时间,以计算整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长;
[0049]语速检测子模块,用于通过语速检测,获取每个说话人的每段话的语速;
[0050]噪声检测子模块,用于通过噪声检测,获取每个说话人的通话质量以及通话环境质量;
[0051]交互特征输出子模块,用于将从S401至S405中获取到的交互特征汇总输出。
[0052]本专利技术提供的一种多模态语音通话信息抽取方法及系统,通过提取通话数据中的语音、语义、交互等多模态特征信息进行组合,形成一个多模态的语音通话特征集,可应用于众多下游任务的分析,包含但不限于客服服务质量分析、催收通话中的客户还款意愿本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态语音通话信息抽取方法,其特征在于,包括:S1、获取音频文件:获取语音通话的音频文件;S2、提取语音特征:提取音频的能量特征、时域特征、频域特征和乐理特征;S3、提取语义特征:通过语音识别技术将音频转录成文字,再利用自然语言处理技术,对文本内容进行分析和理解;S4、提取交互特征:通过语音分析,提取音频中说话人的交互特征。2.根据权利要求1所述的多模态语音通话信息抽取方法,其特征在于,在S2中,使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC)。3.根据权利要求1所述的多模态语音通话信息抽取方法,其特征在于,所述S3具体包括:S301、音频去噪:对音频进行去噪处理;S302、端点检测:采用端点检测技术,将连续的通话内容切分成独立的语音片段,并去除静音片段;S303、语音分离:采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;S304、声纹识别:采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;S305、语音识别:采用语音识别技术,将音频数据转录成文本;S306、标点符号生成:采用标点符号生成技术,对文本进行语义重组和断句,给文本内容加上标点符号;S307、语义理解:采用意图理解技术和实体识别技术,对文本内容进行分析,获取文本意图和关键的实体;S308、语义特征输出:将S307中获取到的语义标签信息输出。4.根据权利要求1所述的多模态语音通话信息抽取方法,其特征在于,在S4中,所述说话人的交互特征包括整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长、语速、通话质量和通话环境质量。5.根据权利要求4所述的多模态语音通话信息抽取方法,其特征在于,所述S4具体包括:S401、语音分离:采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;S402、声纹识别:采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;S403、端点检测:采用端点检测技术,获取每段话的开始与结束时间,以计算整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长;S404、语速检测:通过语速检测,获取每个说话人的每段话的语速;S405、噪声检测:通过噪声检测,获取每个说话人的通话质量以及通话环境质量;S406、交互特征输出:将从S401至S405中获取到的交互特征汇总输出。6.一种多模态语音通话信息抽取系统,其特...

【专利技术属性】
技术研发人员:龚科陈添水
申请(专利权)人:拓元广州智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1