语音识别方法、装置及计算机可读存储介质制造方法及图纸

技术编号：17781708 阅读：99 留言：0更新日期：2018-04-22 11:25

本发明专利技术公开了一种语音识别方法，该方法包括：获取第一语音数据和对应的第一唇形视频，对该第一语音数据进行分割得到对应的声母和韵母；通过训练好的语音识别模型对该声母和韵母进行识别，得到对应的语音识别结果，检测该语音识别结果中是否存在识别概率小于预设阈值的小概率声母和/或小概率韵母；若是，在该第一唇形视频中获取与该小概率声母和/或小概率韵母对应的第一唇形图像序列，通过训练好的唇形识别模型对第一唇形图像序列进行识别，得到唇形识别结果；根据语音识别结果和唇形识别结果通过预设语音搜索树和预设唇形搜索树得到最终识别结果。本发明专利技术还公开了一种语音识别装置和计算机可读存储介质。本发明专利技术能够提高识别结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置及计算机可读存储介质
本专利技术涉及语音识别
，尤其涉及语音识别方法、装置及计算机可读存储介质。
技术介绍
语音识别技术是通过机器的识别理解将语音信号转变成相应的文本或命令，是人机交互通信的主要技术。目前，语音识别技术已被应用于各个领域中，例如通信、汽车电子、医疗、家庭服务等，发挥着越来越重要的作用。虽然语音识别技术的发展十分迅速，各种语音识别产品层出不穷，但是与语音识别领域最终想要达到的人机自由交互的效果还有很长一段距离。例如，现有的语音识别器主要是针对普通话进行语音识别，而对于中国这个多民族、多语言、多方言的人口大国而言，方言就有七大类，包括官话方言、吴方言、湘方言、客家方言、闽方言、粤方言和赣方言，虽然目前普通话作为交流的语言已经基本普及，但是人们在讲话时难免会带有一定程度的方言口音，因此，对于带有方言口音的语音，其语音识别结果的准确性较差。
技术实现思路
本专利技术的主要目的在于提出一种语音识别方法、装置及计算机可读存储介质，旨在解决语音识别结果准确性较差的技术问题。为实现上述目的，本专利技术提供一种语音识别方法，所述语音识别方法包括：...

【技术保护点】
一种语音识别方法，其特征在于，所述语音识别方法包括如下步骤：获取用户输入的第一语音数据和对应的第一唇形视频，并对所述第一语音数据进行分割得到对应的音节，其中所述音节包括声母和韵母；通过训练好的语音识别模型对所述声母和韵母进行识别，得到对应的语音识别结果，并检测所述语音识别结果中是否存在识别概率小于预设阈值的小概率声母和/或小概率韵母；若是，在所述第一唇形视频中获取与所述小概率声母和/或小概率韵母对应的第一唇形图像序列，并通过训练好的唇形识别模型对所述第一唇形图像序列进行识别，得到对应的唇形识别结果；根据所述语音识别结果和唇形识别结果并通过预设语音搜索树和预设唇形搜索树进行搜索，得到最终的识别结...

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述语音识别方法包括如下步骤：获取用户输入的第一语音数据和对应的第一唇形视频，并对所述第一语音数据进行分割得到对应的音节，其中所述音节包括声母和韵母；通过训练好的语音识别模型对所述声母和韵母进行识别，得到对应的语音识别结果，并检测所述语音识别结果中是否存在识别概率小于预设阈值的小概率声母和/或小概率韵母；若是，在所述第一唇形视频中获取与所述小概率声母和/或小概率韵母对应的第一唇形图像序列，并通过训练好的唇形识别模型对所述第一唇形图像序列进行识别，得到对应的唇形识别结果；根据所述语音识别结果和唇形识别结果并通过预设语音搜索树和预设唇形搜索树进行搜索，得到最终的识别结果。2.如权利要求1所述的语音识别方法，其特征在于，所述获取用户输入的第一语音数据和对应的第一唇形视频，并对所述第一语音数据进行分割得到对应的音节的步骤之前，包括：分别采集通过不同方言和普通话朗读目标音节时的第二语音数据，其中所述方言包括官话方言、吴方言、湘方言、客家方言、闽方言、粤方言和赣方言；对所述第二语音数据进行预处理，并提取经预处理后的第二语音数据的语音特征；根据所述语音特征，通过迭代算法计算出语音识别模型的最优模型参数，并根据所述语音识别模型的最优模型参数得到所述训练好的语音识别模型。3.如权利要求2所述的语音识别方法，其特征在于，所述获取用户输入的第一语音数据和对应的第一唇形视频，并对所述第一语音数据进行分割得到对应的音节的步骤之前，还包括：在采集所述第二语音数据的同时采集对应的第二唇形视频；通过图像识别方法对所述第二唇形视频进行分析，获得唇形特征；根据所述唇形特征，通过所述迭代算法计算出唇形识别模型的最优模型参数，并根据所述唇形识别模型的最优模型参数得到所述训练好的唇形识别模型。4.如权利要求3中所述的语音识别方法，其特征在于，所述通过图像识别方法对所述第二唇形视频进行分析，获得唇形特征的步骤，包括：从所述第二唇形视频中获取对应的第二唇形图像序列，并对所述第二唇形图像序列进行预处理；通过图像识别方法识别出经预处理后的第二唇形图像序列中的唇部区域，并提取所述唇部区域的唇形特征。5.如权利要求3中所述的语音识别方法，其特征在于，所述获取用户输入的第一语音数据和对应的第一唇形视频，并对所述第一语音数据进行分割得到对应的音节的步骤之前，还包括：基于所述普通话对应的语音特征与所述目标音节之间的映射表创建普通话搜索树；分别构建各方言到所述普通话之间的音节映射表，并分别构建各方言和所述普通话对应的唇形特征与所述目标音节之间的唇形映射表；根据所述音节映射表扩展所述普通话搜索树得到所述预设语音搜索树，并根据所述唇形映射表创建所述预设唇形搜索树。6.如权利要求1所述的语音识别方法，其特征在于，所述根据...

【专利技术属性】
技术研发人员：刘佳明，
申请(专利权)人：努比亚技术有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人