一种方言语言的识别技术及虚拟现实教学方法和系统技术方案

技术编号：16758059 阅读：47 留言：0更新日期：2017-12-09 03:27

本发明专利技术公开了一种方言语言的识别技术及虚拟现实教学方法和系统，方言语言的识别技术包括以下处理步骤：通过口音特征提取模块对口音特征进行实时提取；口音特征分类模块根据提取的口音特征识别被采集者的口音所在地域和被采集者的性别，并且对被采集者的口音进行分类标注；口音识别模块根据被采集者的口音特征和所在区域及性别，从口音模型库中选择模型进行口音识别，将实时采集的语音数据转化成标准普通话；本发明专利技术还提供了一种虚拟显示教学方法和虚拟显示教学系统。在解决方言问题的同时提高识别精度、识别系统响应速度。

A dialect language recognition technique and a virtual reality teaching method and system

The invention discloses a dialect language recognition technology and virtual reality teaching method and system, dialect language recognition technology comprises the following steps: the module for real-time extraction of accent features by accent feature extraction; classification module according to the characteristics of accent accent feature recognition and extraction is the collection location and accent of the gender is collected and to be the acquisition, accent classification; accent identification module according to the collected features and regional accent and gender, choose the model from the model base of accent accent identification, voice real-time data into standard Mandarin; the invention also provides a virtual display and virtual display teaching method teaching system. In order to solve the problem of dialect, the accuracy of recognition is improved and the response speed of the system is identified.

全部详细技术资料下载

【技术实现步骤摘要】
一种方言语言的识别技术及虚拟现实教学方法和系统
本专利技术涉及语言识别领域，尤其涉及一种方言语言的识别技术，还涉及一种虚拟显示教学方法和一种虚拟显示教学系统。
技术介绍
目前，虚拟现实技术在教育领域的应用已经引起了众多的关注。语音驱动课程已经开始成为虚拟现实教育技术的发展重点。按照控制方式进行划分有两种方式，分别是根据屏幕预留选项进行控制和输入语音来进行控制。根据屏幕预留选项进行控制的形式通过操纵杆等设备在用户眼前呈现的场景中进行选择，系统根据选择对象再映射成为课程关键词信息，从而进入预设的课程内容。但是该类方法存在着操作复杂并且所涉及的课程数量较少、不够智能化等问题。输入语音来进行控制课程的形式主要是基于用户语音内容，然后通过提取语音中的关键词，并根据后台预设的关键词与课程进行关联关系，实现课程的展示。相对于前面的根据屏幕预留选项进行控制的方式而言，基于输入语音来进行控制的方式比较方便灵活，用户更加易于接受。但是该类方法同样存在识别精度不高、识别系统响应慢并且不能够识别带有方言口音的普通话等问题。
技术实现思路
本专利技术的目的一是，提供一种方言语言的识别技术，可以...
一种方言语言的识别技术及虚拟现实教学方法和系统

【技术保护点】
一种方言语言的识别技术，其特征在于：包括以下处理步骤：步骤1：将实时采集的语音数据传递至口音特征提取模块，并且通过口音特征提取模块对口音特征进行实时提取；步骤2：口音特征分类模块根据提取的口音特征识别被采集者的口音所在地域和被采集者的性别，并且对被采集者的口音进行分类标注；步骤3：口音识别模块根据被采集者的口音特征和所在区域及性别，从口音模型库中选择模型进行口音识别，将实时采集的语音数据转化成标准普通话。

【技术特征摘要】
1.一种方言语言的识别技术，其特征在于：包括以下处理步骤：步骤1：将实时采集的语音数据传递至口音特征提取模块，并且通过口音特征提取模块对口音特征进行实时提取；步骤2：口音特征分类模块根据提取的口音特征识别被采集者的口音所在地域和被采集者的性别，并且对被采集者的口音进行分类标注；步骤3：口音识别模块根据被采集者的口音特征和所在区域及性别，从口音模型库中选择模型进行口音识别，将实时采集的语音数据转化成标准普通话。2.根据权利要求1所述的一种方言语言的识别技术，其特征在于：在步骤1中，口音特征提取模块对口音特征进行实时提取包括以下处理步骤：步骤201：对语音声调特征的提取，首先提高采集的语音数据的平滑度，其中提高语音平滑度的加重函数为：H(z)＝1-az-1其中，H(z)表示加重函数，为预处理后输出的数据值；z表示采集的语音数据，a为平滑系数，a的范围是[0.91]；然后对提高了语音平滑度的语音数据进行用于提高抗干扰性强和抗衰减性的分帧处理，该分帧的函数为：s-1(n)＝w(n)×s(n)其中，s(n)表示平滑后的语音数据，s-1(n)表示分帧后的语音数据，w(n)表示分帧函数，w(n)的定义如下：其中，n表示对应语音帧的长度，N表示语音帧的总帧数；步骤202：对语音能量值的提取，将对分帧处理后的每帧数据的能量值进行提取，该提取函数为：其中，E(i)表示每帧数据的能量值函数，i表示帧的序号，N表示语音帧的总帧数，表示每帧的数据值；步骤203：对语音基频的提取，进行每一帧的能量值提取后，将每一帧数据的频率映射到基频上，该提取方法为：F＝2595lg(1+f/700)其中，f表示语音的每一帧的频率，F表示提取的基频；步骤204：对语音声调特征、语音能量值、语音基频的提取后，进行动静结合的混合特征音素提取，该提取方法为：其中，C表示语音数据的音素，定义如下：M(n)＝(1-a2)M(n-1)其中，a＝0.35，n表示对应语音帧的长度。3.根据权利要求2所述的一种方言语言的识别技术，其特征在于：在步骤2中，性别识别采用EM参数估计法来构建男女性别的高斯混合模型来识别，其过程为，首先对采集的语音数据进行基频提取，再通过建立的与男女性别高斯混合模型分别计算出与男女性别高斯混合模型之间的后验概率值(Sm，Sw)，最后通过计算男性后验概率值-女性后验概率值Sm-Sw与0的大小，若结果大于0则为男，反之则为女。4.根据权利要求2所述的一种方言语言的识别技术，其特征在于：在步骤2中，地域识别采用EM参数估计法来构建不同地域的高斯混合模型来识别，其过程为，首先对采集的语音数据进行混合特征的音素进行提取，并且通过混合特征音素分别计算出与不同地域的高斯混合模型的后验概率值(S1，S2，S3,…Sn)，然后分别计算|S1-S2|、|S2-S3|、|S3-S4|、…、|Sn-1-Sn|，并选出绝对值最大的|Sn-1-Sn|，则该|Sn-1-Sn|中的Sn-1则对应采集的语音数据所对应的归属地域。5.根据权利要求2所述的一种方言语言的识别技术，其特征在于：所述口音模型库中选择的模型进行口音识别，将实时采集的语音数据转化成标准普通话的方法包括以下处理...

【专利技术属性】
技术研发人员：刘志，
申请(专利权)人：广州腾猴科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人