一种多模态语音通话信息抽取方法及系统技术方案

技术编号：34768118 阅读：28 留言：0更新日期：2022-08-31 19:23

本发明专利技术提供了一种多模态语音通话信息抽取方法及系统，所述多模态语音通话信息抽取方法包括：S1、获取音频文件：获取语音通话的音频文件；S2、提取语音特征：提取音频的能量特征、时域特征、频域特征和乐理特征；S3、提取语义特征：通过语音识别技术将音频转录成文字，再利用自然语言处理技术，对文本内容进行分析和理解；S4、提取交互特征：通过语音分析，提取音频中说话人的交互特征。本发明专利技术通过提取通话数据中的语音、语义、交互等多模态特征信息进行组合，形成一个多模态的语音通话特征集，可应用于众多下游任务的分析，具有广泛的应用前景。具有广泛的应用前景。具有广泛的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态语音通话信息抽取方法及系统

[0001]本专利技术涉及语音特征提取领域，具体涉及一种多模态语音通话信息抽取方法及系统。

技术介绍

[0002]随着语音识别、语音合成、对话系统等技术的发展，智能电话客服得以应用在越来越多的电话业务当中。智能外呼系统也极大增加了通话的数量，成千上万的电话通话录音也在不间断地产生。
[0003]在这一背景下，如何从海量的通话数据中提取有效的信息，来辅助分析客户行为意愿，是摆在众多服务提供商面前的一大难题。

技术实现思路

[0004]本专利技术的目的在于针对现有技术中的问题，提供一种多模态语音通话信息抽取方法及系统，以提取通话数据中的语音、语义、交互等多模态特征信息，使之能够用于众多下游任务。
[0005]为实现上述目的，本专利技术采用以下技术方案：
[0006]一种多模态语音通话信息抽取方法，包括：
[0007]S1、获取音频文件：获取语音通话的音频文件；
[0008]S2、提取语音特征：提取音频的能量特征、时域特征、频域特征和乐理特征；
[0009]S3、提取语义特征：通过语音识别技术将音频转录成文字，再利用自然语言处理技术，对文本内容进行分析和理解；
[0010]S4、提取交互特征：通过语音分析，提取音频中说话人的交互特征。
[0011]进一步地，在S2中，使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC)。
[0012]进一步地，所述S3具体包括：
[0013]S3...

【技术保护点】

【技术特征摘要】
1.一种多模态语音通话信息抽取方法，其特征在于，包括：S1、获取音频文件：获取语音通话的音频文件；S2、提取语音特征：提取音频的能量特征、时域特征、频域特征和乐理特征；S3、提取语义特征：通过语音识别技术将音频转录成文字，再利用自然语言处理技术，对文本内容进行分析和理解；S4、提取交互特征：通过语音分析，提取音频中说话人的交互特征。2.根据权利要求1所述的多模态语音通话信息抽取方法，其特征在于，在S2中，使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC)。3.根据权利要求1所述的多模态语音通话信息抽取方法，其特征在于，所述S3具体包括：S301、音频去噪：对音频进行去噪处理；S302、端点检测：采用端点检测技术，将连续的通话内容切分成独立的语音片段，并去除静音片段；S303、语音分离：采用语音分离技术，将音频中有多人重叠说话的部分分离成单人语音数据，将单通道多人声数据分离拆分成多通道单人声数据；S304、声纹识别：采用声纹识别技术，识别音频中的不同人的声纹，根据声纹区分不同的说话人，并对说话人的身份类别进行归类划分；S305、语音识别：采用语音识别技术，将音频数据转录成文本；S306、标点符号生成：采用标点符号生成技术，对文本进行语义重组和断句，给文本内容加上标点符号；S307、语义理解：采用意图理解技术和实体识别技术，对文本内容进行分析，获取文本意图和关键的实体；S308、语义特征输出：将S307中获取到的语义标签信息输出。4.根据权利要求1所述的多模态语音通话信息抽取方法，其特征在于，在S4中，所述说话人的交互特征包括整个通话的时长，以及每个说话人各自的说话时长、静默时长、静默次数、插话时长、语速、通话质量和通话环境质量。5.根据权利要求4所述的多模态语音通话信息抽取方法，其特征在于，所述S4具体包括：S401、语音分离：采用语音分离技术，将音频中有多人重叠说话的部分分离成单人语音数据，将单通道多人声数据分离拆分成多通道单人声数据；S402、声纹识别：采用声纹识别技术，识别音频中的不同人的声纹，根据声纹区分不同的说话人，并对说话人的身份类别进行归类划分；S403、端点检测：采用端点检测技术，获取每段话的开始与结束时间，以计算整个通话的时长，以及每个说话人各自的说话时长、静默时长、静默次数、插话时长；S404、语速检测：通过语速检测，获取每个说话人的每段话的语速；S405、噪声检测：通过噪声检测，获取每个说话人的通话质量以及通话环境质量；S406、交互特征输出：将从S401至S405中获取到的交互特征汇总输出。6.一种多模态语音通话信息抽取系统，其特...

【专利技术属性】
技术研发人员：龚科，陈添水，
申请(专利权)人：拓元广州智慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人