电子装置与语音识别方法制造方法及图纸

技术编号:25402046 阅读:70 留言:0更新日期:2020-08-25 23:06
本发明专利技术提供一种电子装置与语音识别方法。所述方法包括:接收一语音数据,并且根据所述语音数据产生相应的声纹特征向量;从声纹特征聚类模型数据库载入声纹特征聚类模型;将所述声纹特征聚类模型的多个节点插入至一候选节点序列以成为多个候选节点,并且识别所述多个候选节点中最接近所述声纹特征向量的目标候选节点;查找出目标候选节点中的所有的候选声纹特征向量样本中匹配所述声纹特征向量的目标候选声纹特征向量样本;以及识别相应于所述目标候选声纹特征向量样本的目标用户与目标用户信息。由此,可准确地且有效率地查找相应于所述语音数据的用户信息,从而增进了电子装置识别语音数据的能力。

【技术实现步骤摘要】
电子装置与语音识别方法
本专利技术有关于一种电子装置,且特别有关于一种用以识别所接收的语音的电子装置,以及所述电子装置所使用的语音识别方法。
技术介绍
声纹是指通过特殊的电声转换仪器(诸如,声谱仪、语图仪等)绘制的展现声波特征的波谱图形,是各种声学特征图谱的集合。对于人体来说,声纹是长期稳定的特征信号,由于发声器官先天的生理差异和后天形成的行为差异,每个人的语音所相应的声纹都带着强烈的个人色彩。通过信息化采集的声纹数据称为声纹信息。因此,语音识别操作是可提取说话人的声音特征/说话内容信息(也称,语音信息),将所述语音信息转换为相应的声纹信息,并且基于所转换的声纹信息对说话人的身份进行识别的生物识别技术。声纹识别主要采集人的语音信息,提取特有的语音特征并将它转换成数字符号。通常的识别系统都是将所接收到的语音信息转化成为一组多维度的特征向量(后简称声纹特征向量)。现有技术的语音识别操作通常是基于预先建立的声纹数据库中的所有声纹信息来对所接收的语音信息进行一对一的识别操作。详细来说,现有技术中的声纹数据库建立时只存储与多个被采集人员对应的多个声纹信息(也可称,声纹信息样本)。在对所接收的语音信息所转换的待识别声纹进行声纹识别时,需要将所述待识别声纹与数据库中存储的所有声纹信息进行逐一匹配,以查找出匹配所述待识别声纹的声纹信息,从而识别出对应所述待识别声纹的被采集人员的相关信息。然而,声纹数据库存储数据所存储的所有声纹信息的总数量是巨大的,采用上述现有技术的语音识别操作会耗费大量的时间于逐一匹配的过程中。鉴于此,如何提供一种更快速、准确的语音识别方法,为本领域技术人员专注致力发展的目标。
技术实现思路
本专利技术的一实施例提供一种电子装置。所述电子装置包括输入/输出装置、储存装置以及处理器。所述储存装置用以记录一用户信息数据库及一声纹特征聚类模型数据库。所述处理器用以经由所述输入/输出装置接收一语音数据,并且所述处理器还用以根据所述语音数据产生相应的声纹特征向量。所述处理器还用以从所述声纹特征聚类模型数据库载入声纹特征聚类模型,其中所述声纹特征聚类模型包括多个节点,其中所述多个节点被划分至多个层以形成一多层次树状结构,其中所述多个节点包括一个根节点、多个叶节点以及多个中继节点,所述多个节点中的每一个包括多个声纹特征向量样本。此外,所述处理器还用以将所述根节点的多个第一子节点插入至一候选节点序列以成为多个候选节点,并且计算所述多个候选节点各自的节点平均声纹特征向量与所述声纹特征向量之间的候选距离。所述处理器还用以根据所计算的多个候选距离来排序所有的候选节点,并且仅保留所述候选节点序列中的前N个候选节点,其中在所述前N个候选节点中的第一个候选节点具有最小的候选距离,其中N为候选节点上限值。所述处理器还用以判断所述多个候选节点各自是否皆为所述多个叶节点的其中之一,其中响应于判定所述多个候选节点各自皆为所述多个叶节点的其中之一,所述处理器还用以执行下列步骤(1)~(3):(1)识别所述候选节点序列中的所有的候选节点各自的多个候选声纹特征向量样本;(2)将所有的候选声纹特征向量样本各自与所述声纹特征向量进行比较,以查找出所有的候选声纹特征向量样本中匹配所述声纹特征向量的目标候选声纹特征向量样本;以及(3)识别相应于所述目标候选声纹特征向量样本的目标用户与目标用户信息,并且将所述目标用户与所述目标用户信息映射至所述语音数据,从而完成相应于所述语音数据的识别操作。本专利技术的一实施例提供一种语音识别方法。所述方法包括:接收一语音数据,根据所述语音数据产生相应的声纹特征向量;从声纹特征聚类模型数据库载入声纹特征聚类模型,其中所述声纹特征聚类模型包括多个节点,其中所述多个节点被划分至多个层以形成一多层次树状结构,其中所述多个节点包括一个根节点、多个叶节点以及多个中继节点,所述多个节点中的每一个包括多个声纹特征向量样本;将所述根节点的多个第一子节点插入至一候选节点序列以成为多个候选节点,并且计算所述多个候选节点各自的节点平均声纹特征向量与所述声纹特征向量之间的候选距离;根据所计算的多个候选距离来排序所有的候选节点,并且仅保留所述候选节点序列中的前N个候选节点,其中在所述前N个候选节点中的第一个候选节点具有最小的候选距离,其中N为候选节点上限值;判断所述多个候选节点各自是否皆为所述多个叶节点的其中之一;以及响应于判定所述多个候选节点各自皆为所述多个叶节点的其中之一,执行下列步骤(1)~(3):(1)识别所述候选节点序列中的所有的候选节点各自的多个候选声纹特征向量样本;(2)将所有的候选声纹特征向量样本各自与所述声纹特征向量进行比较,以查找出所有的候选声纹特征向量样本中匹配所述声纹特征向量的目标候选声纹特征向量样本;以及(3)识别相应于所述目标候选声纹特征向量样本的目标用户与目标用户信息,并且将所述目标用户与所述目标用户信息映射至所述语音数据,从而完成相应于所述语音数据的识别操作。在本专利技术的一实施例中,响应于判定所述多个候选节点各自皆为所述多个叶节点的其中之一,所述处理器还用以判断所述多个候选节点中的多个候选声纹特征向量样本的总数量是否小于候选样本数量门槛值,其中响应于判定所述多个候选节点中的所述多个候选声纹特征向量样本的所述总数量不小于所述候选样本数量门槛值,所述处理器还用以将所述多个候选节点各自的多个第二子节点插入至所述候选节点序列以成为新的多个候选节点,并且计算所述新的多个候选节点各自的节点平均声纹特征向量与所述声纹特征向量之间的候选距离,并且所述处理器还用以再次执行所述根据所计算的所述多个候选距离来排序所有的候选节点,并且仅保留所述候选节点序列中的前N个候选节点的步骤。在本专利技术的一实施例中,响应于判定所述多个候选节点中的所述多个候选声纹特征向量样本的所述总数量小于所述候选样本数量门槛值,所述处理器还用以再次执行步骤(1)~(3)。在本专利技术的一实施例中,其中所述步骤(2)包括:所述处理器识别所述多个候选声纹特征向量样本各自的多个候选声纹特征向量,其中所述多个候选声纹特征向量样本对应多个候选用户;所述处理器计算对应每一个候选声纹特征向量样本的所述多个候选声纹特征向量与所接收的语音数据的声纹特征向量之间的多个距离;所述处理器识别所述多个距离中的最小的距离为目标距离;以及所述处理器判断所述目标距离是否小于匹配距离门槛值,其中响应于判定所述目标距离小于所述匹配距离门槛值,所述处理器将所述目标距离所对应的候选声纹特征向量所属的候选声纹特征向量样本判定为匹配所述声纹特征向量的目标候选声纹特征向量样本。在本专利技术的一实施例中,其中响应于判定所述目标距离不小于所述匹配距离门槛值,所述处理器判定所述多个候选声纹征向量样本中不具有匹配所述声纹特征向量的所述目标候选声纹特征向量样本;所述处理器识别包含所述目标距离所对应的候选声纹特征向量所属的候选声纹特征向量样本的目标节点,以及所述目标节点的目标父节点;以及所述处理器产生连接至所述目标父节点的新的子节点,并且将所述声纹特征向量加入至所述新的子节点的对应所述语音数本文档来自技高网
...

【技术保护点】
1.一种电子装置,其特征在于,包括:/n输入/输出装置;/n储存装置,用以记录用户信息数据库及声纹特征聚类模型数据库;以及/n处理器,/n其中,所述处理器用以经由所述输入/输出装置接收语音数据,并且所述处理器还用以根据所述语音数据产生相应的声纹特征向量,/n其中,所述处理器还用以从所述声纹特征聚类模型数据库载入声纹特征聚类模型,其中所述声纹特征聚类模型包括多个节点,其中所述多个节点被划分至多个层以形成多层次树状结构,其中所述多个节点包括一个根节点、多个叶节点以及多个中继节点,所述多个节点中的每一个包括多个声纹特征向量样本,/n其中,所述处理器还用以将所述根节点的多个第一子节点插入至候选节点序列以成为多个候选节点,并且计算所述多个候选节点各自的节点平均声纹特征向量与所述声纹特征向量之间的候选距离,/n其中,所述处理器还用以根据所计算的多个候选距离来排序所有的候选节点,并且仅保留所述候选节点序列中的前N个候选节点,其中在所述前N个候选节点中的第一个候选节点具有最小的候选距离,其中N为候选节点上限值,/n其中,所述处理器还用以判断所述多个候选节点各自是否皆为所述多个叶节点其中之一,/n其中,响应于判定所述多个候选节点各自皆为所述多个叶节点其中之一,所述处理器还用以执行下列步骤一至三:/n步骤一:识别所述候选节点序列中的所有的候选节点各自的多个候选声纹特征向量样本;/n步骤二:将所有的候选声纹特征向量样本各自与所述声纹特征向量进行比较,以查找出所有的候选声纹特征向量样本中匹配所述声纹特征向量的目标候选声纹特征向量样本;以及/n步骤三:识别相应于所述目标候选声纹特征向量样本的目标用户与目标用户信息,并且将所述目标用户与所述目标用户信息映射至所述语音数据,从而完成相应于所述语音数据的识别操作。/n...

【技术特征摘要】
1.一种电子装置,其特征在于,包括:
输入/输出装置;
储存装置,用以记录用户信息数据库及声纹特征聚类模型数据库;以及
处理器,
其中,所述处理器用以经由所述输入/输出装置接收语音数据,并且所述处理器还用以根据所述语音数据产生相应的声纹特征向量,
其中,所述处理器还用以从所述声纹特征聚类模型数据库载入声纹特征聚类模型,其中所述声纹特征聚类模型包括多个节点,其中所述多个节点被划分至多个层以形成多层次树状结构,其中所述多个节点包括一个根节点、多个叶节点以及多个中继节点,所述多个节点中的每一个包括多个声纹特征向量样本,
其中,所述处理器还用以将所述根节点的多个第一子节点插入至候选节点序列以成为多个候选节点,并且计算所述多个候选节点各自的节点平均声纹特征向量与所述声纹特征向量之间的候选距离,
其中,所述处理器还用以根据所计算的多个候选距离来排序所有的候选节点,并且仅保留所述候选节点序列中的前N个候选节点,其中在所述前N个候选节点中的第一个候选节点具有最小的候选距离,其中N为候选节点上限值,
其中,所述处理器还用以判断所述多个候选节点各自是否皆为所述多个叶节点其中之一,
其中,响应于判定所述多个候选节点各自皆为所述多个叶节点其中之一,所述处理器还用以执行下列步骤一至三:
步骤一:识别所述候选节点序列中的所有的候选节点各自的多个候选声纹特征向量样本;
步骤二:将所有的候选声纹特征向量样本各自与所述声纹特征向量进行比较,以查找出所有的候选声纹特征向量样本中匹配所述声纹特征向量的目标候选声纹特征向量样本;以及
步骤三:识别相应于所述目标候选声纹特征向量样本的目标用户与目标用户信息,并且将所述目标用户与所述目标用户信息映射至所述语音数据,从而完成相应于所述语音数据的识别操作。


2.根据权利要求1所述的电子装置,其中,响应于判定所述多个候选节点各自皆为所述多个叶节点其中之一,
所述处理器还用以判断所述多个候选节点中的多个候选声纹特征向量样本的总数量是否小于候选样本数量门槛值,
其中,响应于判定所述多个候选节点中的所述多个候选声纹特征向量样本的所述总数量不小于所述候选样本数量门槛值,所述处理器还用以将所述多个候选节点各自的多个第二子节点插入至所述候选节点序列以成为新的多个候选节点,并且计算所述新的多个候选节点各自的节点平均声纹特征向量与所述声纹特征向量之间的候选距离,并且所述处理器还用以再次执行所述根据所计算的所述多个候选距离来排序所有的候选节点,并且仅保留所述候选节点序列中的前N个候选节点的步骤。


3.根据权利要求2所述的电子装置,其中,响应于判定所述多个候选节点中的所述多个候选声纹特征向量样本的所述总数量小于所述候选样本数量门槛值,所述处理器还用以再次执行步骤一至三。


4.根据权利要求3所述的电子装置,其中,所述步骤二包括:
所述处理器识别所述多个候选声纹特征向量样本各自的多个候选声纹特征向量,其中所述多个候选声纹特征向量样本对应多个候选用户;
所述处理器计算对应每一个候选声纹特征向量样本的所述多个候选声纹特征向量与所接收的语音数据的声纹特征向量之间的多个距离;
所述处理器识别所述多个距离中的最小的距离为目标距离;以及
所述处理器判断所述目标距离是否小于匹配距离门槛值,
其中,响应于判定所述目标距离小于所述匹配距离门槛值,所述处理器将所述目标距离所对应的候选声纹特征向量所属的候选声纹特征向量样本判定为匹配所述声纹特征向量的目标候选声纹特征向量样本。


5.根据权利要求4所述的电子装置,其中,响应于判定所述目标距离不小于所述匹配距离门槛值,
所述处理器判定所述多个候选声纹特征向量样本中不具有匹配所述声纹特征向量的所述目标候选声纹特征向量样本;
所述处理器识别包含所述目标距离所对应的候选声纹特征向量所属的候选声纹特征向量样本的目标节点,以及所述目标节点的目标父节点;以及
所述处理器产生连接至所述目标父节点的新的子节点,并且将所述声纹特征向量加入至所述新的子节点的对应所述语音数据的新用户的声纹特征向量样本中。


6.根据权利要求4所述的电子装置,其中,响应于判定所述目标距离不小于所述匹配距离门槛值,所述处理器判定无法匹配所接收的所述语音数据,并且判定相应于所述语音数据的用户为未注册用户。


7.根据权利要求2所述的电子装置,其中,所述声纹特征聚类模型是经由所述处理器执行声纹特征聚类模型建立操作所建立的,其中在所述声纹特征聚类模型建立操作中,
所述处理器从所述用户信息数据库的相应于多个用户的多笔用户信息中提取所述多个用户各自的多个语音数据;
所述处理器根据所述多个用户各自的所述多个语音数据产生所述多个用户各自的多个声纹;
所述处理器根据所述多个用户各自的所述多个声纹来计算所述多个用户各自的相应于所述多个声纹的所述多个用户各自的多个M维声纹特征向量,其中M为正整数;
所述处理器根据所述多个用户各自的所述多个M维声纹特征向量来计算所述多个用户各自的平均声纹特征向量,以将所述多个用户的多个平均声纹特征向量作为多个声纹特征向量样本各自的样本平均声纹特征向量;以及
所述处理器基于多个样本平均声纹特征向量来对多个声纹特征向量样本进行多层次无监督聚类操作,将所述多个声纹特征向量样本分组至多个层的多个节点中,以建立多层次树状结构的声纹特征聚类模型。


8.根据权利要求7所述的电子装置,其中,所述多个声纹特征向量样本的总数量为P,其中在基于所述多个样本平均声纹特征向量来对所述多个声纹特征向量样本进行所述多层次无监督聚类操作,将所述多个声纹特征向量样本分组至所述多个层的所述多个节点中,以建立所述多层次树状结构的所述声纹特征聚类模型的运作中,
所述处理器根据P个声纹特征向量样本各自的样本平均声纹特征向量来计算P个样本平均声纹特征向量彼此之间的距离,以作为所述P个声纹特征向量样本之间的初始距离,其中P为正整数;
所述处理器初始地设定每个声纹特征向量样本被划分为独立的节点,并且根据多个初始距离来计算所述多个节点彼此之间的节点距离,其中所述多个节点中的每个节点的节点平均声纹特征向量为对应的声纹特征向量样本的样本平均声纹特征向量;
所述处理器根据多个节点距离,从不具有父节点的所有节点中选择最接近的Q个节点分别作为目标节点,并且将所述Q个目标节点合并为所述Q个目标节点的父节点,其中所述Q个目标节点各自为所述父节点的子节点,其中Q为大于1的正整数;
所述处理器记录相应于所述父节点的节点信息至所述父节点,其中相应于所述父节点的所述节点信息包括所述父节点的节点平均声纹特征向量、所述父节点的节点半径、所述父节点的总样本数;
所述处理器根据所述父节点中的所有的声纹特征向量样本与其他的多个节点各自所具有的所有的声纹特征向量样本之间的所述初始距离,来估算所述父节点分别与所述其他的多个节点之间的节点距离;
所述处理器判断所合并的父节点是否具有P个声纹特征向量样本;以及
响应于判定所合并的所述父节点具有所述P个声纹特征向量样本,所述处理器对当前的具有所有节点的第一多层次树状结构执行修剪操作,以将所述第一多层次树状结构更新为第二多层次树状结构,从而完成所述声纹特征聚类模型的建立,其中所述第二多层次树状结构的总节点数目与总层数小于所述第一多层次树状结构的总节点数目与总层数,其中具有所述P个声纹特征向量样本的所述父节点为所建立的所述声纹特征聚类模型的所述根节点。


9.根据权利要求8所述的电子装置,其中,响应于判定所合并的所述父节点不具有所述P个声纹特征向量样本,所述处理器再次执行所述根据所述多个节点距离,从不具有所述父节点的所有节点中选择最接近的所述Q个节点分别作为所述目标节点,并且将所述Q个目标节点合并为所述Q个目标节点的所述父节点的步骤。


10.根据权利要求8所述的电子装置,其中,
所述处理器计算所述Q个目标节点各自的所述样本平均声纹特征向量的平均值,以作为所述父节点的所述节点平均声纹特征向量,
其中,所述处理器计算所述父节点的所述...

【专利技术属性】
技术研发人员:刘恕寻亮廖文伟
申请(专利权)人:威盛电子股份有限公司
类型:发明
国别省市:中国台湾;71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1