一种语音数据处理方法、装置以及语音交互设备制造方法及图纸

技术编号:17839369 阅读:24 留言:0更新日期:2018-05-03 20:25
本发明专利技术实施例公开了一种语音数据处理方法、装置以及语音交互设备,其中方法包括:获取历史语音数据,并获取历史语音数据对应的历史语音特征向量,并对历史语音特征向量进行聚类,得到语音特征簇;语音特征簇包含至少一个特征相似的历史语音特征向量;若语音特征簇满足高频用户条件,则根据语音特征簇所包含的历史语音特征向量训练对应的用户语音模型;若检测到当前语音数据的当前语音特征向量与用户语音模型相匹配,则发起与当前语音数据相关联的用户身份关联请求;若接收到与用户身份关联请求对应的响应消息,则将响应消息中的用户身份信息与用户语音模型进行绑定。采用本发明专利技术,可提高语音注册效率,且可以提高语音注册的成功率。

【技术实现步骤摘要】
一种语音数据处理方法、装置以及语音交互设备
本专利技术涉及计算机
,尤其涉及一种语音数据处理方法、装置以及语音交互设备。
技术介绍
随着语音识别技术的发展,有越来越多的产品使用到了语音识别技术,例如可以音控的汽车、音箱、电视等等,即语音交互设备可以对说话人的语音进行识别并根据识别的内容实现自动化控制。可进行语音识别的语音交互设备可以针对不同说话人的语音特征进行个性化服务,在此之前,说话人需要主动对语音交互设备进行语音注册,以注册该说话人的语音特征和该说话人的说话人信息之间的关系,从而在后续识别出某语音与该说话人的语音特征相匹配后,可以提供与该说话人的说话人信息对应的使用权限。但是目前的语音注册过程通常都需要说话人对着语音交互设备重复且清晰地说出许多遍的固定句子,以提取说话人的语音特征,由此可见,目前的语音注册方式是需要由说话人主动发起,且注册时间可能会花费较长时间,导致语音注册效率低下;而且在语音注册过程中,说话人很容易因一时粗心导致说话人的语音内容与系统提供的固定句子不同,进而导致语音注册失败,从而降低了语音注册的成功率。
技术实现思路
本专利技术实施例提供一种语音数据处理方法、装置以及语音交互设备,可提高语音注册效率,且可以提高语音注册的成功率。本专利技术的一方面提供了一种语音数据处理方法,包括:获取历史语音数据,并获取所述历史语音数据对应的历史语音特征向量,并对所述历史语音特征向量进行聚类,得到语音特征簇;所述语音特征簇包含至少一个特征相似的历史语音特征向量;若所述语音特征簇满足高频用户条件,则根据所述语音特征簇所包含的所述历史语音特征向量训练对应的用户语音模型;若检测到当前语音数据的当前语音特征向量与所述用户语音模型相匹配,则发起与所述当前语音数据相关联的用户身份关联请求;若接收到与所述用户身份关联请求对应的响应消息,则将所述响应消息中的用户身份信息与所述用户语音模型进行绑定。其中,还包括:获取所述语音特征簇所包含的所述历史语音特征向量的数量,并根据所述语音特征簇所包含的所述历史语音特征向量的数量,以及所述语音特征簇所包含的所述历史语音特征向量,计算所述语音特征簇对应的类内散度;若所述语音特征簇所包含的所述历史语音特征向量的数量大于系统数量阈值,且所述类内散度小于系统类内散度阈值,则确定所述语音特征簇满足高频用户条件。其中,所述获取历史语音数据,并获取所述历史语音数据对应的历史语音特征向量,并对所述历史语音特征向量进行聚类,得到语音特征簇,包括:获取所有历史语音数据,并根据所述所有历史语音数据训练高斯混合模型和全局差异空间矩阵;根据所述高斯混合模型和所述全局差异空间矩阵将所述所有历史语音数据投影至向量空间,生成每个历史语音数据分别对应的历史语音特征向量,并对所述历史语音特征向量进行降维;根据目标聚类模型参数对降维后的历史语音特征向量进行聚类,得到所述语音特征簇。其中,所述目标聚类模型参数包括:密度领域半径和核心样本阈值;所述根据目标聚类模型参数对降维后的历史语音特征向量进行聚类,得到所述语音特征簇,包括:以所有降维后的历史语音特征向量为样本点生成包含所述样本点的样本数据集,并根据所述密度领域半径和所述核心样本阈值在所述样本数据集中查找所有为核心点的样本点;在所有核心点中确定任意一个核心点为出发点,并在所述样本数据集中查找与所述出发点具有密度可达关系的所有样本点,作为可达样本点,并生成包含所述出发点和所有所述可达样本点的语音特征簇,并将所有核心点中的下一个核心点确定为所述出发点,重复执行本步骤,直至所有核心点均被确定为所述出发点。其中,所述根据所述语音特征簇所包含的所述历史语音特征向量训练对应的用户语音模型,具体包括:对所述语音特征簇所包含的所述历史语音特征向量进行均值计算或插值计算,得到目标历史语音特征向量,并将所述目标历史语音特征向量作为所述语音簇对应的用户语音模型的模型参数。其中,还包括:获取样本语音数据,并为所述样本语音数据设置对应的样本用户身份标签;根据聚类算法性能参数最大化条件、所述样本语音数据与所述样本用户身份标签之间的对应关系,训练初始聚类模型参数,并将训练后的初始聚类模型参数确定为所述目标聚类模型参数。其中,还包括:若聚类后所累计新增的历史语音数据的数量达到第一数量阈值,或聚类后所累计时长达到第一时长阈值,则获取与已绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量,作为第一历史语音特征向量;根据聚类算法性能参数最大化条件、所述第一历史语音特征向量与已绑定的所述用户身份信息之间的对应关系,更新当前的聚类模型参数,得到所述目标聚类模型参数。其中,还包括:若聚类后所累计新增的历史语音数据的数量达到第二数量阈值,或聚类后所累计时长达到第二时长阈值,则获取与未绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量,以及与所有用户语音模型均不匹配的历史语音特征向量,作为第二历史语音特征向量,并对所述第二历史语音特征向量进行聚类,得到当前生成的语音特征簇;根据所述当前生成的语音特征簇对未绑定所述用户身份信息的用户语音模型所对应的语音特征簇进行更新,并对未满足所述高频用户条件的语音特征簇进行替换。其中,还包括:若聚类后所累计新增的历史语音数据的数量达到第三数量阈值,或聚类后所累计时长达到第三时长阈值,则获取与已绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量,作为第三历史语音特征向量,并根据所述第三历史语音特征向量更新已绑定所述用户身份信息的用户语音模型;获取与未绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量,作为第四历史语音特征向量,并根据所述第四历史语音特征向量更新未绑定所述用户身份信息的用户语音模型。本专利技术的另一方面提供了一种语音数据处理装置,包括:聚类模块,获取历史语音数据,并获取所述历史语音数据对应的历史语音特征向量,并对所述历史语音特征向量进行聚类,得到语音特征簇;所述语音特征簇包含至少一个特征相似的历史语音特征向量;第一训练模块,用于若所述语音特征簇满足高频用户条件,则根据所述语音特征簇所包含的所述历史语音特征向量训练对应的用户语音模型;请求发起模块,用于若检测到当前语音数据的当前语音特征向量与所述用户语音模型相匹配,则发起与所述当前语音数据相关联的用户身份关联请求;绑定模块,用于若接收到与所述用户身份关联请求对应的响应消息,则将所述响应消息中的用户身份信息与所述用户语音模型进行绑定。其中,还包括:获取计算模块,用于获取所述语音特征簇所包含的所述历史语音特征向量的数量,并根据所述语音特征簇所包含的所述历史语音特征向量的数量,以及所述语音特征簇所包含的所述历史语音特征向量,计算所述语音特征簇对应的类内散度;条件确定模块,用于若所述语音特征簇所包含的所述历史语音特征向量的数量大于系统数量阈值,且所述类内散度小于系统类内散度阈值,则确定所述语音特征簇满足高频用户条件。其中,所述聚类模块包括:获取训练单元,用于获取所有历史语音数据,并根据所述所有历史语音数据训练高斯混合模型和全局差异空间矩阵;向量处理单元,用于根据所述高斯混合模型和所述全局差异空间矩阵将所述所有历史语音数据投影至向量空间,生成每个历史语音数据分别对应的历史语音特征向本文档来自技高网...
一种语音数据处理方法、装置以及语音交互设备

【技术保护点】
一种语音数据处理方法,其特征在于,包括:获取历史语音数据,并获取所述历史语音数据对应的历史语音特征向量,并对所述历史语音特征向量进行聚类,得到语音特征簇;所述语音特征簇包含至少一个特征相似的历史语音特征向量;若所述语音特征簇满足高频用户条件,则根据所述语音特征簇所包含的所述历史语音特征向量训练对应的用户语音模型;若检测到当前语音数据的当前语音特征向量与所述用户语音模型相匹配,则发起与所述当前语音数据相关联的用户身份关联请求;若接收到与所述用户身份关联请求对应的响应消息,则将所述响应消息中的用户身份信息与所述用户语音模型进行绑定。

【技术特征摘要】
1.一种语音数据处理方法,其特征在于,包括:获取历史语音数据,并获取所述历史语音数据对应的历史语音特征向量,并对所述历史语音特征向量进行聚类,得到语音特征簇;所述语音特征簇包含至少一个特征相似的历史语音特征向量;若所述语音特征簇满足高频用户条件,则根据所述语音特征簇所包含的所述历史语音特征向量训练对应的用户语音模型;若检测到当前语音数据的当前语音特征向量与所述用户语音模型相匹配,则发起与所述当前语音数据相关联的用户身份关联请求;若接收到与所述用户身份关联请求对应的响应消息,则将所述响应消息中的用户身份信息与所述用户语音模型进行绑定。2.如权利要求1所述的方法,其特征在于,还包括:获取所述语音特征簇所包含的所述历史语音特征向量的数量,并根据所述语音特征簇所包含的所述历史语音特征向量的数量,以及所述语音特征簇所包含的所述历史语音特征向量,计算所述语音特征簇对应的类内散度;若所述语音特征簇所包含的所述历史语音特征向量的数量大于系统数量阈值,且所述类内散度小于系统类内散度阈值,则确定所述语音特征簇满足高频用户条件。3.如权利要求1所述的方法,其特征在于,所述获取历史语音数据,并获取所述历史语音数据对应的历史语音特征向量,并对所述历史语音特征向量进行聚类,得到语音特征簇,包括:获取所有历史语音数据,并根据所述所有历史语音数据训练高斯混合模型和全局差异空间矩阵;根据所述高斯混合模型和所述全局差异空间矩阵将所述所有历史语音数据投影至向量空间,生成每个历史语音数据分别对应的历史语音特征向量,并对所述历史语音特征向量进行降维;根据目标聚类模型参数对降维后的历史语音特征向量进行聚类,得到所述语音特征簇。4.如权利要求3所述的方法,其特征在于,所述目标聚类模型参数包括:密度领域半径和核心样本阈值;所述根据目标聚类模型参数对降维后的历史语音特征向量进行聚类,得到所述语音特征簇,包括:以所有降维后的历史语音特征向量为样本点生成包含所述样本点的样本数据集,并根据所述密度领域半径和所述核心样本阈值在所述样本数据集中查找所有为核心点的样本点;在所有核心点中确定任意一个核心点为出发点,并在所述样本数据集中查找与所述出发点具有密度可达关系的所有样本点,作为可达样本点,并生成包含所述出发点和所有所述可达样本点的语音特征簇,并将所有核心点中的下一个核心点确定为所述出发点,重复执行本步骤,直至所有核心点均被确定为所述出发点。5.如权利要求1所述的方法,其特征在于,所述根据所述语音特征簇所包含的所述历史语音特征向量训练对应的用户语音模型,具体包括:对所述语音特征簇所包含的所述历史语音特征向量进行均值计算或插值计算,得到目标历史语音特征向量,并将所述目标历史语音特征向量作为所述语音簇对应的用户语音模型的模型参数。6.如权利要求3所述的方法,其特征在于,还包括:获取样本语音数据,并为所述样本语音数据设置对应的样本用户身份标签;根据聚类算法性能参数最大化条件、所述样本语音数据与所述样本用户身份标签之间的对应关系,训练初始聚类模型参数,并将训练后的初始聚类模型参数确定为所述目标聚类模型参数。7.如权利要求3所述的方法,其特征在于,还包括:若聚类后所累计新增的历史语音数据的数量达到第一数量阈值,或聚类后所累计时长达到第一时长阈值,则获取与已绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量,作为第一历史语音特征向量;根据聚类算法性能参数最大化条件、所述第一历史语音特征向量与已绑定的所述用户身份信息之间的对应关系,更新当前的聚类模型参数,得到所述目标聚类模型参数。8.如权利要求3所述的方法,其特征在于,还包括:若聚类后所累计新增的历史语音数据的数量达到第二数量阈值,或聚类后所累计时长达到第二时长阈值,则获取与未绑定所述用户身份信息的用户语音模型相匹配的所有历史语音特征向量,以及与所有用户语音模型均不匹配的历史语音特征向量,作为第二历史语音特征向量,并对所述第二历史语音特征向量进行聚类,得到当前生成的语音特征簇;根据所述当前生成的语音特征簇对未绑定所述用户身份信息的用户语音模型所对应的语音特征簇进行更新,并对未满足所...

【专利技术属性】
技术研发人员:马龙李俊张力
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1