语音处理方法及装置、计算机装置及可读存储介质制造方法及图纸

技术编号:19829022 阅读:26 留言:0更新日期:2018-12-19 17:04
一种语音处理方法,所述方法包括:对语音信号进行预处理;对预处理后的语音信号提取特征参数;根据所述特征参数,利用预先训练好的语音识别模型对所述语音信号进行解码,得到以句子为单位的文本;通过隐马尔科夫模型HMM从所述以句子为单位的文本中提取摘要句。本发明专利技术还提供一种语音处理装置、计算机装置及计算机可读存储介质。本发明专利技术可以对语音进行识别,并从语音识别结果中去除无用信息。

【技术实现步骤摘要】
语音处理方法及装置、计算机装置及可读存储介质
本专利技术涉及计算机听觉
,具体涉及一种语音处理方法及装置、计算机装置和计算机可读存储介质。
技术介绍
在智能会议系统中,语音识别技术是一项关键技术,其可以将人的说话信号转换为可被计算机识别的文字信息作为输出。然而,现有的智能会议系统只是实现语音到文字的转换,而不能对识别出来的文字信息做进一步的处理,根据语音直接转换得到的文字信息可以会包含无用的信息,例如一些与会议内容无关的句子。
技术实现思路
鉴于以上内容,有必要提出一种语音处理方法及装置、计算机装置和计算机可读存储介质,其可以对语音进行识别,并从语音识别结果中去除无用信息。本申请的第一方面提供一种语音处理方法,所述方法包括:对语音信号进行预处理;对预处理后的语音信号提取特征参数;根据所述特征参数,利用预先训练好的语音识别模型对所述语音信号进行解码,得到以句子为单位的文本;通过隐马尔科夫模型HMM从所述以句子为单位的文本中提取摘要句。另一种可能的实现方式中,所述通过隐马尔科夫模型HMM从所述以句子为单位的文本中提取摘要句,具体包括:获得所述以句子为单位的文本的观察状态序列O={O1,O2…On};确定HMM的隐含状态;进行HMM参数估计,得到训练好的HMM;根据所述训练好的HMM,通过Viterbi算法对所述句子进行标记,得到各个句子符合摘要句的符合度;将满足预设符合度的句子从所述以句子为单位的文本中提取出来,得到所述以句子为单位的文本中的摘要句。另一种可能的实现方式中,所述对语音信号进行预处理包括检测所述语音信号中的有效语音,具体包括:对所述语音信号进行加窗分帧,得到所述语音信号的语音帧;对所述语音帧进行离散傅里叶变换,得到所述语音帧的频谱;根据所述语音帧的频谱计算各个频带的累计能量;对所述各个频带的累计能量进行对数运算,得到所述各个频带的累计能量对数值;将所述各个频带的累计能量对数值与预设阈值进行比较,得到所述有效语音。另一种可能的实现方式中,所述特征参数包括初始梅尔倒谱系数MFCC特征参数、一阶差分MFCC特征参数和二阶差分MFCC特征参数。另一种可能的实现方式中,所述方法还包括:对所述特征参数进行降维处理,得到降维后的特征参数。另一种可能的实现方式中,所述对预处理后的语音信号提取特征参数包括对预处理后的语音信号提取梅尔倒谱系数MFCC特征参数,具体包括:采用双线性变换低通滤波器截止频率的映射公式,计算对齐不同说话人平均第三共振峰的频率弯折因子;根据所述频率弯折因子,采用双线性变换对MFCC特征参数提取所使用的三角滤波器组的位置和宽度进行调整;根据调整后的三角滤波器组计算声道归一化的MFCC特征参数。另一种可能的实现方式中,所述对预处理后的语音信号提取特征参数包括对预处理后的语音信号提取梅尔倒谱系数MFCC特征参数,具体包括:对每个语音帧进行离散傅里叶变换DFT,得到该语音帧的频谱;求该语音帧的频谱幅度的平方,得到该语音帧的离散能量谱;将该语音帧的离散能量谱通过Mel频率上均匀分布的三角滤波器组,得到各个三角滤波器的输出;对所有三角滤波器的输出做对数运算,得到该语音帧的对数功率谱;对所述对数功率谱离散余弦变换DCT,得到该语音帧的初始MFCC特征参数。本申请的第二方面提供一种语音处理装置,所述装置包括:预处理单元,用于对语音信号进行预处理;特征提取单元,用于对预处理后的语音信号提取特征参数;解码单元,用于根据所述特征参数,利用预先训练好的语音识别模型对所述语音信号进行解码,得到以句子为单位的文本;摘要提取单元,用于通过隐马尔科夫模型HMM从所述以句子为单位的文本中提取摘要句。本申请的第三方面提供一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述语音处理方法。本申请的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述语音处理方法。本专利技术对语音信号进行预处理;对预处理后的语音信号提取特征参数;根据所述特征参数,利用预先训练好的语音识别模型对所述语音信号进行解码,得到以句子为单位的文本;通过隐马尔科夫模型HMM从所述以句子为单位的文本中提取摘要句。本专利技术不仅将语音信息转化为文字,还提取文字中的摘要句进行输出,剔除了由语音识别结果中的无用信息,获得更好的语音处理结果。附图说明图1是本专利技术实施例提供的语音处理方法的流程图。图2是本专利技术实施例提供的语音处理装置的结构图。图3是本专利技术实施例提供的计算机装置的示意图。具体实施方式为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施例对本专利技术进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。优选地,本专利技术的语音处理方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、可编程门阵列(Field-ProgrammableGateArray,FPGA)、数字处理器(DigitalSignalProcessor,DSP)、嵌入式设备等。所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。实施例一图1是本专利技术实施例一提供的语音处理方法的流程图。所述语音处理方法应用于计算机装置。所述语音处理方法从语音信号中识别出以句子为单位的文本,从以句子为单位的文本中提取出摘要句。如图1所示,所述语音处理方法具体包括以下步骤:步骤101,对语音信号进行预处理。所述语音信号可以是模拟语音信号,也可以是数字语音信号。若所述语音信号是模拟语音信号,则将所述模拟语音信号进行模数变换,转换为数字语音信号。本专利技术用于连续语音识别,即对连续的音频流进行处理。在本专利技术的一个实施例中,所述语音处理方法应用于智能会议系统中,所述语音信号是通过语音输入设备(例如麦克风、手机话筒等)输入到智能会议系统的发言者的语音信号。对所述语音信号进行预处理可以包括对所述语音信号进行预加重。预加重的目的是提升语音的高频分量,使信号的频谱变得平坦。语音信号由于受声门激励和口鼻辐射的影响,能量在高频端明显减小,通常是频率越高幅值越小。当频率提升两倍时,功率谱幅度按6dB/oct跌落。因此,在对语音信号进行频谱分析或声道参数分析前,需要对语音信号的高频部分进行频率提升,即对语音信号进行预加重。预加重一般利用高通滤波器实现,高通滤波器的传递函数可以为:H(z)=1-κz-1本文档来自技高网
...

【技术保护点】
1.一种语音处理方法,其特征在于,所述方法包括:对语音信号进行预处理;对预处理后的语音信号提取特征参数;根据所述特征参数,利用预先训练好的语音识别模型对所述语音信号进行解码,得到以句子为单位的文本;通过隐马尔科夫模型HMM从所述以句子为单位的文本中提取摘要句。

【技术特征摘要】
1.一种语音处理方法,其特征在于,所述方法包括:对语音信号进行预处理;对预处理后的语音信号提取特征参数;根据所述特征参数,利用预先训练好的语音识别模型对所述语音信号进行解码,得到以句子为单位的文本;通过隐马尔科夫模型HMM从所述以句子为单位的文本中提取摘要句。2.如权利要求1所述的方法,其特征在于,所述通过隐马尔科夫模型HMM从所述以句子为单位的文本中提取摘要句,具体包括:获得所述以句子为单位的文本的观察状态序列O={O1,O2…On};确定HMM的隐含状态;进行HMM参数估计,得到训练好的HMM;根据所述训练好的HMM,通过Viterbi算法对所述句子进行标记,得到各个句子符合摘要句的符合度;将满足预设符合度的句子从所述以句子为单位的文本中提取出来,得到所述以句子为单位的文本中的摘要句。3.如权利要求1所述的方法,其特征在于,所述对语音信号进行预处理包括检测所述语音信号中的有效语音,具体包括:对所述语音信号进行加窗分帧,得到所述语音信号的语音帧;对所述语音帧进行离散傅里叶变换,得到所述语音帧的频谱;根据所述语音帧的频谱计算各个频带的累计能量;对所述各个频带的累计能量进行对数运算,得到所述各个频带的累计能量对数值;将所述各个频带的累计能量对数值与预设阈值进行比较,得到所述有效语音。4.如权利要求1所述的方法,其特征在于,所述特征参数包括初始梅尔倒谱系数MFCC特征参数、一阶差分MFCC特征参数和二阶差分MFCC特征参数。5.如权利要求1所述的方法,其特征在于,所述方法还包括:对所述特征参数进行降维处理,得到降维后的特征参数。6.如权利要求1所述的方法,其特征在于,所述对预处理后的语音信号提取特征参数包...

【专利技术属性】
技术研发人员:王健宗王珏肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1