一种语音识别方法、装置及电子设备制造方法及图纸

技术编号：21955275 阅读：29 留言：0更新日期：2019-08-24 19:07

本发明专利技术提供了一种语音识别方法、装置及电子设备，在接收到目标用户输出的待分析的语音数据之后，会分析得到目标用户的语音特征，然后基于目标用户的语音特征，从预设目标用户中识别出所述目标用户。通过本发明专利技术，可以在家庭成员发送声音指令之后，识别出是哪一成员。

A Speech Recognition Method, Device and Electronic Equipment

全部详细技术资料下载

【技术实现步骤摘要】
一种语音识别方法、装置及电子设备
本专利技术涉及语音处理领域，更具体的说，涉及一种语音识别方法、装置及电子设备。
技术介绍
智能家居逐渐普及，而智能家居设备中的语音识别功能使非手势交互成为可能，用户可以通过声音向智能家居设备发送控制指令，增加智能家居设备操作的便利性。智能家居设备在家庭中使用时，会遇到多个家庭成员发送声音指令，需要根据声音指令识别出不同的家庭成员，进而可以为家庭成员提供更智能的服务。
技术实现思路
有鉴于此，本专利技术提供一种语音识别方法、装置及电子设备，以解决需要一种根据声音指令识别出不同的家庭成员的方法的问题。为解决上述技术问题，本专利技术采用了如下技术方案：一种语音识别方法，包括：获取待分析的语音数据；对所述语音数据进行分帧操作，得到多帧目标语音数据；确定所述目标语音数据对应的声学特征数据；基于所述声学特征数据，确定对应的特征向量；所述特征向量表征输出所述语音数据的目标用户的语音特征；根据所述特征向量从预设目标用户列表中识别出所述目标用户。优选地，所述确定所述目标语音数据对应的声学特征数据，包括：提取所述目标语音数据的声学前端特征数据；对所述声学前端特征数据进行一阶差分计算和二阶差分计算，得到差分特征数据；基于所述差分特征数据和所述声学前端特征数据，得到所述目标语音数据对应的声学特征数据。优选地，所述基于所述声学特征数据，确定对应的特征向量，包括：获取特征确定模型；所述特征确定模型包括卷积层、ROI池化层和全连接层；所述卷积层、所述ROI池化层和所述全连接层依次连接；所述ROI池化层用于将所述声学特征数据经过卷积层得到的中间特征向量转换为...

【技术保护点】
1.一种语音识别方法，其特征在于，包括：获取待分析的语音数据；对所述语音数据进行分帧操作，得到多帧目标语音数据；确定所述目标语音数据对应的声学特征数据；基于所述声学特征数据，确定对应的特征向量；所述特征向量表征输出所述语音数据的目标用户的语音特征；根据所述特征向量从预设目标用户列表中识别出所述目标用户。

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：获取待分析的语音数据；对所述语音数据进行分帧操作，得到多帧目标语音数据；确定所述目标语音数据对应的声学特征数据；基于所述声学特征数据，确定对应的特征向量；所述特征向量表征输出所述语音数据的目标用户的语音特征；根据所述特征向量从预设目标用户列表中识别出所述目标用户。2.根据权利要求1所述的语音识别方法，其特征在于，所述确定所述目标语音数据对应的声学特征数据，包括：提取所述目标语音数据的声学前端特征数据；对所述声学前端特征数据进行一阶差分计算和二阶差分计算，得到差分特征数据；基于所述差分特征数据和所述声学前端特征数据，得到所述目标语音数据对应的声学特征数据。3.根据权利要求1所述的语音识别方法，其特征在于，所述基于所述声学特征数据，确定对应的特征向量，包括：获取特征确定模型；所述特征确定模型包括卷积层、ROI池化层和全连接层；所述卷积层、所述ROI池化层和所述全连接层依次连接；所述ROI池化层用于将所述声学特征数据经过卷积层得到的中间特征向量转换为输出向量；所述输出向量的行数为预设指定行数且列数为预设指定列数；所述特征确定模型使用的损失函数为focalloss损失函数；基于所述特征确定模型和每一所述目标语音数据的声学特征数据，得到所述特征向量。4.根据权利要求3所述的语音识别方法，其特征在于，所述基于所述特征确定模型和每一所述目标语音数据的声学特征数据，得到所述特征向量，包括：基于所述特征确定模型中的卷积层，对所述声学特征数据进行卷积操作，得到中间特征向量；所述中间特征向量的行数为第一数值且列数为第二数值；在所述中间特征向量中的左上、右上、左下和右下方向分别提取出包括预设特定行数和预设特定列数的特征子向量；所述预设特定行数为第一数值的一半；所述预设特定列数为第二数值的一半；对所述特征子向量进行池化操作，得到所述输出向量；基于所述特征确定模型中的全连接层和所述输出向量，得到所述特征向量。5.根据权利要求1所述的语音识别方法，其特征在于，所述根据所述特征向量从预设目标用户列表中识别出所述目标用户，包括：获取所述预设目标用户列表中的预设目标用户对应的目标特征向量；所述目标特征向量表征所述预设目标用户的语音特征；计算所述目标特征向量与所述特征向量的余弦相似距离；筛选出对应的余弦相似距离大于预设距离值的目标特征向量；将筛选出的所述目标特征向量对应的预设目标用户作为所述目标用户。6.一种语音识别装置，其特征在于，包括：数据获取模块，用...

【专利技术属性】
技术研发人员：陈孝良，王超，冯大航，
申请(专利权)人：北京声智科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人