一种语音识别方法、装置及电子设备制造方法及图纸

技术编号:21955275 阅读:29 留言:0更新日期:2019-08-24 19:07
本发明专利技术提供了一种语音识别方法、装置及电子设备,在接收到目标用户输出的待分析的语音数据之后,会分析得到目标用户的语音特征,然后基于目标用户的语音特征,从预设目标用户中识别出所述目标用户。通过本发明专利技术,可以在家庭成员发送声音指令之后,识别出是哪一成员。

A Speech Recognition Method, Device and Electronic Equipment

【技术实现步骤摘要】
一种语音识别方法、装置及电子设备
本专利技术涉及语音处理领域,更具体的说,涉及一种语音识别方法、装置及电子设备。
技术介绍
智能家居逐渐普及,而智能家居设备中的语音识别功能使非手势交互成为可能,用户可以通过声音向智能家居设备发送控制指令,增加智能家居设备操作的便利性。智能家居设备在家庭中使用时,会遇到多个家庭成员发送声音指令,需要根据声音指令识别出不同的家庭成员,进而可以为家庭成员提供更智能的服务。
技术实现思路
有鉴于此,本专利技术提供一种语音识别方法、装置及电子设备,以解决需要一种根据声音指令识别出不同的家庭成员的方法的问题。为解决上述技术问题,本专利技术采用了如下技术方案:一种语音识别方法,包括:获取待分析的语音数据;对所述语音数据进行分帧操作,得到多帧目标语音数据;确定所述目标语音数据对应的声学特征数据;基于所述声学特征数据,确定对应的特征向量;所述特征向量表征输出所述语音数据的目标用户的语音特征;根据所述特征向量从预设目标用户列表中识别出所述目标用户。优选地,所述确定所述目标语音数据对应的声学特征数据,包括:提取所述目标语音数据的声学前端特征数据;对所述声学前端特征数据进行一阶差分计算和二阶差分计算,得到差分特征数据;基于所述差分特征数据和所述声学前端特征数据,得到所述目标语音数据对应的声学特征数据。优选地,所述基于所述声学特征数据,确定对应的特征向量,包括:获取特征确定模型;所述特征确定模型包括卷积层、ROI池化层和全连接层;所述卷积层、所述ROI池化层和所述全连接层依次连接;所述ROI池化层用于将所述声学特征数据经过卷积层得到的中间特征向量转换为输出向量;所述输出向量的行数为预设指定行数且列数为预设指定列数;所述特征确定模型使用的损失函数为focalloss损失函数;基于所述特征确定模型和每一所述目标语音数据的声学特征数据,得到所述特征向量。优选地,所述基于所述特征确定模型和每一所述目标语音数据的声学特征数据,得到所述特征向量,包括:基于所述特征确定模型中的卷积层,对所述声学特征数据进行卷积操作,得到中间特征向量;所述中间特征向量的行数为第一数值且列数为第二数值;在所述中间特征向量中的左上、右上、左下和右下方向分别提取出包括预设特定行数和预设特定列数的特征子向量;所述预设特定行数为第一数值的一半;所述预设特定列数为第二数值的一半;对所述特征子向量进行池化操作,得到所述输出向量;基于所述特征确定模型中的全连接层和所述输出向量,得到所述特征向量。优选地,所述根据所述特征向量从预设目标用户列表中识别出所述目标用户,包括:获取所述预设目标用户列表中的预设目标用户对应的目标特征向量;所述目标特征向量表征所述预设目标用户的语音特征;计算所述目标特征向量与所述特征向量的余弦相似距离;筛选出对应的余弦相似距离大于预设距离值的目标特征向量;将筛选出的所述目标特征向量对应的预设目标用户作为所述目标用户。一种语音识别装置,包括:数据获取模块,用于获取待分析的语音数据;数据分帧模块,用于对所述语音数据进行分帧操作,得到多帧目标语音数据;特征确定模块,用于确定所述目标语音数据对应的声学特征数据;向量确定模块,用于基于所述声学特征数据,确定对应的特征向量;所述特征向量表征输出所述语音数据的目标用户的语音特征;目标识别模块,用于根据所述特征向量从预设目标用户列表中识别出所述目标用户。优选地,所述特征确定模块包括:数据提取子模块,用于提取所述目标语音数据的声学前端特征数据;差分计算子模块,用于对所述声学前端特征数据进行一阶差分计算和二阶差分计算,得到差分特征数据;特征确定子模块,用于基于所述差分特征数据和所述声学前端特征数据,得到所述目标语音数据对应的声学特征数据。优选地,所述向量确定模块包括:模型获取子模块,用于获取特征确定模型;所述特征确定模型包括卷积层、ROI池化层和全连接层;所述卷积层、所述ROI池化层和所述全连接层依次连接;所述ROI池化层用于将所述声学特征数据经过卷积层得到的中间特征向量转换为输出向量;所述输出向量的行数为预设指定行数且列数为预设指定列数;所述特征确定模型使用的损失函数为focalloss损失函数;向量确定子模块,用于基于所述特征确定模型和每一所述目标语音数据的声学特征数据,得到所述特征向量。优选地,所述向量确定子模块包括:卷积单元,用于基于所述特征确定模型中的卷积层,对所述声学特征数据进行卷积操作,得到中间特征向量;所述中间特征向量的行数为第一数值且列数为第二数值;向量提取单元,用于在所述中间特征向量中的左上、右上、左下和右下方向分别提取出包括预设特定行数和预设特定列数的特征子向量;所述预设特定行数为第一数值的一半;所述预设特定列数为第二数值的一半;池化单元,用于对所述特征子向量进行池化操作,得到所述输出向量;向量确定单元,用于基于所述特征确定模型中的全连接层和所述输出向量,得到所述特征向量。一种电子设备,包括:存储器和处理器;其中,所述存储器用于存储程序;处理器调用程序并用于:获取待分析的语音数据;对所述语音数据进行分帧操作,得到多帧目标语音数据;确定所述目标语音数据对应的声学特征数据;基于所述声学特征数据,确定对应的特征向量;所述特征向量表征输出所述语音数据的目标用户的语音特征;根据所述特征向量从预设目标用户列表中识别出所述目标用户。相较于现有技术,本专利技术具有以下有益效果:本专利技术提供了一种语音识别方法、装置及电子设备,在接收到目标用户输出的待分析的语音数据之后,会分析得到目标用户的语音特征,然后基于目标用户的语音特征,从预设目标用户列表中识别出所述目标用户。通过本专利技术,可以在家庭成员发送声音指令之后,识别出是哪一成员。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例提供的一种语音识别方法的方法流程图;图2为本专利技术实施例提供的另一种语音识别方法的方法流程图;图3为本专利技术实施例提供的再一种语音识别方法的方法流程图;图4为本专利技术实施例提供的又一种语音识别方法的方法流程图;图5为本专利技术实施例提供的第五种语音识别方法的方法流程图;图6为本专利技术实施例提供的一种语音识别装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供了一种语音识别方法,参照图1,可以包括:S11、获取待分析的语音数据。本实施例中输出待分析的语音数据的用户任意,可以是一家庭成员,也可以是一会议成员,对此不做限定。当有语音数据输出时,就会对输出的语音数据进行采集。S12、对所述语音数据进行分帧操作,得到多帧目标语音数据。具体的,语音数据由多帧数据组成,为了便于对语音数据进行分析,此处进行分帧操作,得到多帧目标语音数据。S13、确定所述目标语音数据对应的声学特本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:获取待分析的语音数据;对所述语音数据进行分帧操作,得到多帧目标语音数据;确定所述目标语音数据对应的声学特征数据;基于所述声学特征数据,确定对应的特征向量;所述特征向量表征输出所述语音数据的目标用户的语音特征;根据所述特征向量从预设目标用户列表中识别出所述目标用户。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取待分析的语音数据;对所述语音数据进行分帧操作,得到多帧目标语音数据;确定所述目标语音数据对应的声学特征数据;基于所述声学特征数据,确定对应的特征向量;所述特征向量表征输出所述语音数据的目标用户的语音特征;根据所述特征向量从预设目标用户列表中识别出所述目标用户。2.根据权利要求1所述的语音识别方法,其特征在于,所述确定所述目标语音数据对应的声学特征数据,包括:提取所述目标语音数据的声学前端特征数据;对所述声学前端特征数据进行一阶差分计算和二阶差分计算,得到差分特征数据;基于所述差分特征数据和所述声学前端特征数据,得到所述目标语音数据对应的声学特征数据。3.根据权利要求1所述的语音识别方法,其特征在于,所述基于所述声学特征数据,确定对应的特征向量,包括:获取特征确定模型;所述特征确定模型包括卷积层、ROI池化层和全连接层;所述卷积层、所述ROI池化层和所述全连接层依次连接;所述ROI池化层用于将所述声学特征数据经过卷积层得到的中间特征向量转换为输出向量;所述输出向量的行数为预设指定行数且列数为预设指定列数;所述特征确定模型使用的损失函数为focalloss损失函数;基于所述特征确定模型和每一所述目标语音数据的声学特征数据,得到所述特征向量。4.根据权利要求3所述的语音识别方法,其特征在于,所述基于所述特征确定模型和每一所述目标语音数据的声学特征数据,得到所述特征向量,包括:基于所述特征确定模型中的卷积层,对所述声学特征数据进行卷积操作,得到中间特征向量;所述中间特征向量的行数为第一数值且列数为第二数值;在所述中间特征向量中的左上、右上、左下和右下方向分别提取出包括预设特定行数和预设特定列数的特征子向量;所述预设特定行数为第一数值的一半;所述预设特定列数为第二数值的一半;对所述特征子向量进行池化操作,得到所述输出向量;基于所述特征确定模型中的全连接层和所述输出向量,得到所述特征向量。5.根据权利要求1所述的语音识别方法,其特征在于,所述根据所述特征向量从预设目标用户列表中识别出所述目标用户,包括:获取所述预设目标用户列表中的预设目标用户对应的目标特征向量;所述目标特征向量表征所述预设目标用户的语音特征;计算所述目标特征向量与所述特征向量的余弦相似距离;筛选出对应的余弦相似距离大于预设距离值的目标特征向量;将筛选出的所述目标特征向量对应的预设目标用户作为所述目标用户。6.一种语音识别装置,其特征在于,包括:数据获取模块,用...

【专利技术属性】
技术研发人员:陈孝良王超冯大航
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1