The invention belongs to the technical field of speech recognition, in particular to an automatic speech recognition method based on physiological information in the process of articulation. Includes the following steps: preprocessing the training data; processing of speech signal, speech signal feature extraction; main features of regional magnetic resonance image, extract the image feature parameters of feature regions; the second step fusion of speech signal feature parameters and the third step to obtain fusion image feature parameters, characteristic parameters; the four step fusion feature parameters speech recognition model for speech recognition training model; using the step five obtain speech recognition model for speech recognition, speech recognition accuracy by comparing with the data of manual annotation, and compare the performance of speech recognition system and the results of pure speech signal. The automatic speech recognition method of the invention reduces the influence of the external environment on the speech recognition, thereby improving the recognition accuracy and enhancing the robustness of the speech recognition system.
【技术实现步骤摘要】
基于发音过程中生理信息的自动语音识别方法
本专利技术属于语音识别
,具体涉及一种基于发音过程中生理信息的自动语音识别方法。
技术介绍
目前语音识别技术主要分两种:一种是仅仅利用语音信号进行语音识别的技术。语音信号作为语音研究最直接的研究材料,具有简单直观的优点,并且经过数十年来的发展,对于语音信号的处理方法已经十分成熟完善。语音信号的处理,根据目的不同,处理方法也不相同,通常是将语音信号转换到时域、频域、倒谱域上,然后对转化后的语音信号进行分析,提取出信号特征,再根据信号特征进行接下来的模型训练、识别等步骤。市场上的语音识别系统大多采用该种技术。单纯利用语音信号进行识别的缺陷在于受环境影响较大。尽管许多实验中该技术表现出了极高的语音识别准确性,但是实验环境通常没有噪音的干扰。而实际生活中,噪音的干扰时有发生,而系统又难以区分何种声音是噪音,何种声音是需要识别的声音,因此系统会表现出较差的语音识别性能。另一种是在上述技术的基础上,辅以视觉信息进行语音识别,目的是降低噪音的干扰。人们获取信息的首要方式是通过视觉,而语言的表现形式也不仅仅是语音信号,还包括面部表情、肢体动作等。生活中人们听不清对方说话的时候,通过观察对方的表情动作就可以增强理解。因此,辅以视觉信息的方法是可行的,实验也证实了该技术确实能够提升语音识别系统的准确性。但是辅以视觉信息的技术也有其局限性。首先视觉信息的采集受人的主观影响,肢体信息、面部表情动作都可以作为视觉信息,并且对于效果较好的唇舌视觉信息,信息特征的采集通常采用超声、X射线进行采集,易丢失信息。并且视觉信息作为语言的一种表现 ...
【技术保护点】
基于发音过程中生理信息的自动语音识别方法,其特征在于,具体包括如下步骤:步骤一:预处理训练数据;步骤二:语音信号处理,提取语音信号特征参数;步骤三:选择磁共振图像视频主要特征区域,提取出特征区域的图像特征参数;步骤四:融合上述步骤二中语音信号特征参数与步骤三中图像特征参数,获得融合特征参数;步骤五:采用上述步骤四融合特征参数进行语音识别模型训练,获得语音识别模型;步骤六:使用上述步骤五获得语音识别模型进行语音识别,通过与人工标注的语音数据进行比对识别准确性,同时将结果与纯语音信号的语音识别系统性能进行比较。
【技术特征摘要】
1.基于发音过程中生理信息的自动语音识别方法,其特征在于,具体包括如下步骤:步骤一:预处理训练数据;步骤二:语音信号处理,提取语音信号特征参数;步骤三:选择磁共振图像视频主要特征区域,提取出特征区域的图像特征参数;步骤四:融合上述步骤二中语音信号特征参数与步骤三中图像特征参数,获得融合特征参数;步骤五:采用上述步骤四融合特征参数进行语音识别模型训练,获得语音识别模型;步骤六:使用上述步骤五获得语音识别模型进行语音识别,通过与人工标注的语音数据进行比对识别准确性,同时将结果与纯语音信号的语音识别系统性能进行比较。2.根据权利要求1所述的方法,其特征在于,所述步骤一中预处理训练数据是采用对文本进行人工标注,获得标注文件;具体步骤:首先是听取语音数据,对其中显而易见的误读等人为造成的与语音文本不符的错误修改,使用GoldWave对其进行静音操作,即将其变为沉默时间,这个过程应保证语音时间长度不变,以便与视频相对应;然后进行对语音数据进行音素级别的标注,这个过程使用的是p2fa标注工具,通过文本与语音文件相对应生成音素标注文件;经过工具生成的标注文件需要在进行人工修正,以提升标注的准确性。3.根据权利要求1所述的方法,其特征在于,所述步骤一中数据指的是F1、F5、M1、M3的语音数据,每个人包含92个语音数据文件,这些语...
【专利技术属性】
技术研发人员:王建荣,高应磊,于健,喻梅,徐天一,赵满坤,
申请(专利权)人:天津大学,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。