一种基于卷积神经网络和连接性时序分类的录音处理方法技术

技术编号:24418825 阅读:36 留言:0更新日期:2020-06-06 12:56
本发明专利技术公开一种基于卷积神经网络和连接性时序分类的录音处理方法,属于语音通信技术领域。该录音处理方法包含以下步骤:S1:利用现有的语音素材,建立数据模型;S2:获取源服务器录音文件,并进行预处理;S3:利用模型文件,对录音文件进行二次识别处理;S4:将输出的处理结果记录存储到数据库中。本发明专利技术借助于人工智能语音识别,极大的提高了质检工作效率和覆盖范围,丰富了呼叫中心的处理能力;覆盖面广、节约资源,针对性强。

A recording processing method based on convolutional neural network and connectivity time series classification

【技术实现步骤摘要】
一种基于卷积神经网络和连接性时序分类的录音处理方法
本专利技术涉及语音通信
,具体涉及一种基于卷积神经网络和连接性时序分类的呼叫中心录音处理方法。
技术介绍
当前呼叫中心技术已经广泛应用于各个行业,在实际使用中,会产生大量的录音文件,这些录音文件对于提升呼叫中心的服务水平有非常重要的作用。因此,对于录音文件的质检是日常的重要工作。目前,质检工作存在两大缺陷:1、质检过程基本采用人工的模式,对于录音文件的调取基本采用抽样的方式,存在覆盖面小、无法事先拦截等问题,并且费时费力;2、每次质检只能调取部分录音,无法对整体情况进行分析,对于整体的把握只能通过话务员操作的业务系统,而话务员自身,由于能力、责任感等因素,水平参差不齐,可能无法完整的描述每次通话所涉及的业务过程。因此,需要一种可以替代人工处理录音文件的方法。在不影响质检工作质量的前提下,达到提高工作效率的的目的。
技术实现思路
本专利技术的目的在于针对上述现有技术存在的缺陷或不足,提供一种基于卷积神经网络和连接性时序分类的呼叫中心录音处理方法,该方法采用卷积神经网络和连接性时序分类技术,利用计算机替代人工对录音文件进行预处理,通过对录音文件的自动语音识别,对录音文件所对应的业务事态等预先进行分类和预处理,以便呼叫中心更好的对外提供服务,从而在不影响质检工作质量的前提下,达到了提高工作效率的目的。为了达到上述目的,本专利技术提供的技术方案是一种基于卷积神经网络和连接性时序分类的录音处理方法,包含以下步骤:S1:利用现有的语音素材,建立数据模型;S2:获取源服务器录音文件,并进行预处理;S3:利用模型文件,对录音文件进行二次识别处理;S4:将输出的处理结果记录存储到数据库中。所述步骤S1包含以下步骤:S101:下载建立模型所需的语音文件数据集,采用双份的数据集,即THCHS30中文语音数据集和OpenSLR提供的免费ST-CMDS中文语音数据集;S102:对下载语音文件进行整理,存放在统一的目录下,语音文件全部是标准的wav文件,以标准普通话为主;S103:如果有需求,根据实际情况准备方言版本,并保存为标准的wav文件;S104:将语音文件中的语音信号通过分帧加窗操作转换为卷积神经网络需要的二维频谱图像信号,也就是语谱图;S105:提取语音文件语谱图中的特征;S106:将提取的特征与神经网络相结合,将输入的特征图数量作为单个神经网络的通道数目;S107:截取特征所对应的信息时间为时间序列;S108:部署人工神经网络库Keras和开源的深度学习框架TensorFlow;S109:采用开源的深度学习框架TensorFlow作为转化工具,将上述语谱图训练数据集转化为TensorFlow训练网络所需的训练集,使用开源的人工神经网络库Keras对这种参考了VGG的深层的深度卷积神经网络进行处理,建立语音深度神经网络模型;S110:利用TensorFlow训练命令调用配置方案,以训练模型至最优性能;S111:对模型进行测试,以检查训练效果。如果不满意,可以调整参数,返回S102,重新训练。所述步骤S2包含以下步骤:S201:利用FTP协议,将录音文件从源服务器复制到处理服务器,并保存到特定目录下;S202:利用自开发的音频转换库把VOX音频文件转化为WAV格式,以符合处理格式要求;S203:对WAV文件的音频信道加以处理,以实现数据增强,并消除背景杂音,以提高识别准确率。所述步骤S3包含以下步骤:S301:读取并加载S1步骤生成的模型文件;S302:对预处理过的WAV格式录音文件的音频数据进行短时傅里叶变换,对其进行时频分析并获取其时间频率频谱,进而获得频谱图;S303:调用库python_speech_features,对频谱图进行处理,借助模型进行分析,获得声学模型输出;S304:利用连接性时序分类技术,将连续相同的符合合并为同一个符号,然后再去除静音分隔标记符,得到最终实际的语音拼音符号序列;S305:借助基于概率图的最大熵隐马尔可夫模型,使用统计语言模型,将语音拼音符号转换为最终的识别文本并输出。基于以上阐述,与现有技术相比,本专利技术的有益效果在于:1、借助于人工智能语音识别,极大的提高了质检工作效率和覆盖范围,丰富了呼叫中心的处理能力。2、覆盖面广,由于采用自动处理技术,可以每天定时对全量的录音文件进行识别并处理,可以避免抽检带来的覆盖面偏低问题;3、节约人力物力,免除了人工进行抽检的步骤,可以显著减少日常质检工作所需的人力物力。4、针对性强,在质检员人工介入前,已经预先对语音文件进行了自动筛选,可以根据需要进行有针对性的处理。附图说明图1为本专利技术的模型建立流程图;图2为本专利技术的业务处理流程图。具体实施方式为了使本领域的技术人员更好地理解本专利技术的技术方案,下面结合具体实施例对本专利技术作进一步的详细说明。实施例请参照附图1,为本专利技术提供的数据模型的建立方法,包括以下步骤:S101:下载建立模型所需的语音文件数据集,为保证效果,采用了双份的数据集,即THCHS30中文语音数据集和OpenSLR提供的免费ST-CMDS中文语音数据集;S102:对下载语音文件进行整理,存放在统一的目录下,语音文件全部是标准的wav文件,以标准普通话为主;S103:如果有需求,根据实际情况准备方言版本,并保存为标准的wav文件;S104:将语音文件中的语音信号通过分帧加窗等操作转换为卷积神经网络需要的二维频谱图像信号,也就是语谱图;S105:提取语音文件语谱图中的特征;S106:将提取的特征与神经网络相结合,将输入的特征图数量作为单个神经网络的通道数目;S107:截取特征所对应的信息时间为时间序列;S108:部署人工神经网络库Keras和开源的深度学习框架TensorFlow;S109:采用开源的深度学习框架TensorFlow作为转化工具,将上述语谱图训练数据集转化为TensorFlow训练网络所需的训练集,使用开源的人工神经网络库Keras对这种参考了VGG的深层的深度卷积神经网络进行处理,建立语音深度神经网络模型;S110:利用TensorFlow训练命令调用配置方案,以训练模型至最优性能;S111:对模型进行测试,以检查训练效果。如果不满意,可以调整参数,返回S102,重新训练。在本专利技术的一些实施例中,步骤S103的方法应用在客服呼叫中心场景中,由于本地方言流行,需要准备本地版的语音文件。请参照附图2,本专利技术提供的录音文件识别的方法,包括以下步骤:S2:获取源服务器录音文件,并进行预处理。所述步骤S2包含以下具体步骤:S201:利用FTP协议,将录本文档来自技高网...

【技术保护点】
1.一种基于卷积神经网络和连接性时序分类的录音处理方法,其特征在于,包含以下步骤:/nS1:利用现有的语音素材,建立数据模型;/nS2:获取源服务器录音文件,并进行预处理;/nS3:利用模型文件,对录音文件进行二次识别处理;/nS4:将输出的处理结果记录存储到数据库中。/n

【技术特征摘要】
1.一种基于卷积神经网络和连接性时序分类的录音处理方法,其特征在于,包含以下步骤:
S1:利用现有的语音素材,建立数据模型;
S2:获取源服务器录音文件,并进行预处理;
S3:利用模型文件,对录音文件进行二次识别处理;
S4:将输出的处理结果记录存储到数据库中。


2.根据权利要求1所述的方法,其特征在于,所述步骤S1包含以下步骤:
S101:下载建立模型所需的语音文件数据集;
S102:对下载语音文件进行整理,存放在统一的目录下,语音文件全部是标准的wav文件,以标准普通话为主;
S103:如果有需求,根据实际情况准备方言版本,并保存为标准的wav文件;
S104:将语音文件中的语音信号通过分帧加窗操作转换为卷积神经网络需要的二维频谱图像信号,也就是语谱图;
S105:提取语音文件语谱图中的特征;
S106:将提取的特征与神经网络相结合,将输入的特征图数量作为单个神经网络的通道数目;
S107:截取特征所对应的信息时间为时间序列;
S108:部署人工神经网络库Keras和开源的深度学习框架TensorFlow;
S109:采用开源的深度学习框架TensorFlow作为转化工具,将上述语谱图训练数据集转化为TensorFlow训练网络所需的训练集,使用开源的人工神经网络库Keras对这种参考了VGG的深层的深度卷积神经网络进行处理,建立语音深度神经网络模型;
S110:利用TensorFlow训练命令调用配置方案,...

【专利技术属性】
技术研发人员:王贤达乔树彬陈强祝佳云
申请(专利权)人:兰州飞天网景信息产业有限公司
类型:发明
国别省市:甘肃;62

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1