当前位置: 首页 > 专利查询>天津大学专利>正文

基于发音过程中生理信息的自动语音识别方法技术

技术编号:15507841 阅读:142 留言:0更新日期:2017-06-04 02:22
本发明专利技术属于语音识别技术领域,具体涉及一种基于发音过程中生理信息的自动语音识别方法。包括以下步骤:预处理训练数据;语音信号处理,提取语音信号特征参数;选择磁共振图像视频主要特征区域,提取出特征区域的图像特征参数;融合上述步骤二中语音信号特征参数与步骤三中图像特征参数,获得融合特征参数;采用上述步骤四融合特征参数进行语音识别模型训练,获得语音识别模型;使用上述步骤五获得语音识别模型进行语音识别,通过与人工标注的语音数据进行比对识别准确性,同时将结果与纯语音信号的语音识别系统性能进行比较。本发明专利技术的自动语音识别方法降低外部环境对语音识别的影响,既提升了识别准确性,又提升语音识别系统的鲁棒性。

Automatic speech recognition method based on physiological information in pronunciation process

The invention belongs to the technical field of speech recognition, in particular to an automatic speech recognition method based on physiological information in the process of articulation. Includes the following steps: preprocessing the training data; processing of speech signal, speech signal feature extraction; main features of regional magnetic resonance image, extract the image feature parameters of feature regions; the second step fusion of speech signal feature parameters and the third step to obtain fusion image feature parameters, characteristic parameters; the four step fusion feature parameters speech recognition model for speech recognition training model; using the step five obtain speech recognition model for speech recognition, speech recognition accuracy by comparing with the data of manual annotation, and compare the performance of speech recognition system and the results of pure speech signal. The automatic speech recognition method of the invention reduces the influence of the external environment on the speech recognition, thereby improving the recognition accuracy and enhancing the robustness of the speech recognition system.

【技术实现步骤摘要】
基于发音过程中生理信息的自动语音识别方法
本专利技术属于语音识别
,具体涉及一种基于发音过程中生理信息的自动语音识别方法。
技术介绍
目前语音识别技术主要分两种:一种是仅仅利用语音信号进行语音识别的技术。语音信号作为语音研究最直接的研究材料,具有简单直观的优点,并且经过数十年来的发展,对于语音信号的处理方法已经十分成熟完善。语音信号的处理,根据目的不同,处理方法也不相同,通常是将语音信号转换到时域、频域、倒谱域上,然后对转化后的语音信号进行分析,提取出信号特征,再根据信号特征进行接下来的模型训练、识别等步骤。市场上的语音识别系统大多采用该种技术。单纯利用语音信号进行识别的缺陷在于受环境影响较大。尽管许多实验中该技术表现出了极高的语音识别准确性,但是实验环境通常没有噪音的干扰。而实际生活中,噪音的干扰时有发生,而系统又难以区分何种声音是噪音,何种声音是需要识别的声音,因此系统会表现出较差的语音识别性能。另一种是在上述技术的基础上,辅以视觉信息进行语音识别,目的是降低噪音的干扰。人们获取信息的首要方式是通过视觉,而语言的表现形式也不仅仅是语音信号,还包括面部表情、肢体动作等。生活中人们听不清对方说话的时候,通过观察对方的表情动作就可以增强理解。因此,辅以视觉信息的方法是可行的,实验也证实了该技术确实能够提升语音识别系统的准确性。但是辅以视觉信息的技术也有其局限性。首先视觉信息的采集受人的主观影响,肢体信息、面部表情动作都可以作为视觉信息,并且对于效果较好的唇舌视觉信息,信息特征的采集通常采用超声、X射线进行采集,易丢失信息。并且视觉信息作为语言的一种表现形式,许多时候不同发音的视觉信息表现较为相似,导致视觉信息虽然能够提升语音识别系统性能,但是提升效果有限。
技术实现思路
本专利技术的目的在于克服上述现有技术的不足,提供一种对现有语音识别系统识别准确性进行有效提升的技术方法,通过对发声器官的核磁共振图像进行分析,同时将其与语音信号进行结合,降低外部环境对语音识别的影响,提升语音识别系统的鲁棒性。本专利技术的技术方案是提供一种基于发音过程中生理信息的自动语音识别方法,具体包括如下步骤:步骤一:预处理训练数据;步骤二:语音信号处理,提取语音信号特征参数;步骤三:选择磁共振图像视频主要特征区域,提取出特征区域的图像特征参数;步骤四:融合上述步骤二中语音信号特征参数与步骤三中图像特征参数,获得融合特征参数;步骤五:采用上述步骤四融合特征参数进行语音识别模型训练,获得语音识别模型;步骤六:使用上述步骤五获得语音识别模型进行语音识别,通过与人工标注的语音数据进行比对识别准确性,同时将结果与纯语音信号的语音识别系统性能进行比较。所述步骤一中预处理训练数据是采用对文本进行人工标注,获得标注文件;具体步骤:首先是听取语音数据,对其中显而易见的误读等人为造成的与语音文本不符的错误修改,使用GoldWave对其进行静音操作,即将其变为沉默时间,这个过程应保证语音时间长度不变,以便与视频相对应;然后对语音数据进行音素级别的标注,这个过程使用的是p2fa标注工具,通过文本与语音文件相对应生成音素标注文件;经过工具生成的标注文件需要在进行人工修正,以提升标注的准确性。所述步骤一中数据指的是F1、F5、M1、M3的语音数据,每个人包含92个语音数据文件,这些语音数据有对应的文本,4个被测试人员均按照文本朗读。训练数据与测试数据比例为9:1,即从中选取83个作为训练数据,其余9个作为测试数据。所述步骤二中提取语音信号特征参数是将语音信号转换到梅尔频率倒谱域上,提取梅尔频率倒谱系数MFCC参数作为语音信号特征参数,具体步骤包括:首先对信号进行预加重操作,增强信号,之后对信号进行分帧、加窗、快速傅里叶变换FFT将语音信号从时域转换到频域,便于分析信号,接下来将信号通过Mel滤波器组,将信号从频域转到倒谱域上,最后对倒谱域上的信号进行对数运算及离散余弦变换DCT获得MFCC参数,对MFCC参数取一阶、二阶差分,再加上语音信号的帧能量,即为特征参数。所述步骤三选择磁共振图像视频主要特征区域采用主成分分析的方法提取出特征区域的图像特征参数;磁共振图像参数属于高维空间参数,图像特征参数提取的具体步骤包括:离散余弦变换DCT、降维、插值、归一化、加窗分帧以及再次降维处理。所述步骤五融合特征参数维数选择66-87维。所述步骤五语音识别模型训练是采用隐马尔科夫模型训练,进行多次迭代训练,直至模型趋于平稳,获得语音识别模型。本专利技术的有益效果:本专利技术提供了一种对现有语音识别系统识别准确性进行有效提升的技术方法,通过对发声器官的核磁共振图像进行分析,同时将其与语音信号进行结合,降低外部环境对语音识别的影响,既提升了识别准确性,又提升语音识别系统的鲁棒性。附图说明图1为本专利技术的方法流程图。图2为75维融合特征识别准确率对比图。具体实施方式下面通过具体实施例和附图对本专利技术作进一步的说明。本专利技术的实施例是为了更好地使本领域的技术人员更好地理解本专利技术,并不对本专利技术作任何的限制。本专利技术基于发音过程中生理信息的自动语音识别方法,具体包括如下步骤:首先,预处理训练数据,采用对文本进行人工标注,获得标注文件;具体步骤:首先是听取语音数据,对其中显而易见的误读等人为造成的与语音文本不符的错误修改,使用GoldWave对其进行静音操作,即将其变为沉默时间,这个过程应保证语音时间长度不变,以便与视频相对应;然后进行对语音数据进行音素级别的标注,这个过程使用的是p2fa标注工具,通过文本与语音文件相对应生成音素标注文件;经过工具生成的标注文件需要在进行人工修正,以提升标注的准确性。数据指的是F1、F5、M1、M3的语音数据,每个人包含92个语音数据文件,这些语音数据有对应的文本,4个被测试人员均按照文本朗读。训练数据与测试数据比例为9:1,即从中选取83个作为训练数据,其余9个作为测试数据。然后,语音信号处理,提取语音信号特征参数是将语音信号转换到梅尔频率倒谱域上,提取梅尔频率倒谱系数MFCC参数作为语音信号特征参数,具体步骤包括:首先对信号进行预加重操作,增强信号,之后对信号进行分帧、加窗、快速傅里叶变换FFT将语音信号从时域转换到频域,便于分析信号,接下来将信号通过Mel滤波器组,将信号从频域转到倒谱域上,最后对倒谱域上的信号进行对数运算及离散余弦变换DCT获得MFCC参数,对MFCC参数取一阶、二阶差分,再加上语音信号的帧能量即为特征参数。其次,磁共振图像特征主要特征区域选择,提取出特征区域的图像特征参数;采用主成分分析的方法提取出特征区域的图像特征参数,磁共振图像参数属于高维空间参数,对于图像的特征提取具体步骤包括:离散余弦变换DCT、降维、插值、归一化、加窗分帧以及再次降维处理。再次,融合上述两步中的语音信号特征参数与图像特征参数,获得融合特征参数;本专利技术融合特征参数维数选择66至87维。再次,采用上述步骤的融合特征参数进行语音识别模型训练,采用隐马尔科夫模型训练,进行多次迭代训练,直至模型趋于平稳,得到最佳语音识别模型。最后,使用训练出的最佳语音识别模型进行语音识别,通过与人工标注的语音数据进行比对识别准确性,同时将结果与纯语音信号的语音识别系统性能进行比较。本专利技术的本文档来自技高网
...
基于发音过程中生理信息的自动语音识别方法

【技术保护点】
基于发音过程中生理信息的自动语音识别方法,其特征在于,具体包括如下步骤:步骤一:预处理训练数据;步骤二:语音信号处理,提取语音信号特征参数;步骤三:选择磁共振图像视频主要特征区域,提取出特征区域的图像特征参数;步骤四:融合上述步骤二中语音信号特征参数与步骤三中图像特征参数,获得融合特征参数;步骤五:采用上述步骤四融合特征参数进行语音识别模型训练,获得语音识别模型;步骤六:使用上述步骤五获得语音识别模型进行语音识别,通过与人工标注的语音数据进行比对识别准确性,同时将结果与纯语音信号的语音识别系统性能进行比较。

【技术特征摘要】
1.基于发音过程中生理信息的自动语音识别方法,其特征在于,具体包括如下步骤:步骤一:预处理训练数据;步骤二:语音信号处理,提取语音信号特征参数;步骤三:选择磁共振图像视频主要特征区域,提取出特征区域的图像特征参数;步骤四:融合上述步骤二中语音信号特征参数与步骤三中图像特征参数,获得融合特征参数;步骤五:采用上述步骤四融合特征参数进行语音识别模型训练,获得语音识别模型;步骤六:使用上述步骤五获得语音识别模型进行语音识别,通过与人工标注的语音数据进行比对识别准确性,同时将结果与纯语音信号的语音识别系统性能进行比较。2.根据权利要求1所述的方法,其特征在于,所述步骤一中预处理训练数据是采用对文本进行人工标注,获得标注文件;具体步骤:首先是听取语音数据,对其中显而易见的误读等人为造成的与语音文本不符的错误修改,使用GoldWave对其进行静音操作,即将其变为沉默时间,这个过程应保证语音时间长度不变,以便与视频相对应;然后进行对语音数据进行音素级别的标注,这个过程使用的是p2fa标注工具,通过文本与语音文件相对应生成音素标注文件;经过工具生成的标注文件需要在进行人工修正,以提升标注的准确性。3.根据权利要求1所述的方法,其特征在于,所述步骤一中数据指的是F1、F5、M1、M3的语音数据,每个人包含92个语音数据文件,这些语...

【专利技术属性】
技术研发人员:王建荣高应磊于健喻梅徐天一赵满坤
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1