【技术实现步骤摘要】
一种基于多视角的语音关键词检测与定位方法及装置
[0001]本专利技术涉及语音检索领域,特别是一种基于多视角的语音关键词检测与定位方法及装置。
技术介绍
[0002]关键词检测是一种在连续的语音中检测出特定关键词的技术,是语音识别研究领域的一个重要分支,广泛应用于语音设备控制和语音检索中。根据检测目的和形式的不同,语音关键词检测可分为语音检测语音(语音样例检测)、文本检测语音。
[0003]目前主流的语音关键词检测方案是基于单个角度(文本或语音),其中基于文本的检测方法主要是利用语音识别技术,即将待检测语音数据转换为文本内容,确定文本内容中是否出现指定关键词。基于语音的检测方法将携带关键词的语音片段直接与语音音频进行声学似然度匹配检测。当前,不同类型数据不断增长堆积,可以利用数据多样化将文本和语音的检测结合,从两个角度来进行检测以提高检测的准确度。
[0004]基于文本的检测由于文本数据和语音数据的异态,无法直接进行比较相似性,随着深度神经网络的发展,可以利用其强大的特征映射能力判断语音和文本高层特征之间的相 ...
【技术保护点】
【技术特征摘要】
1.一种基于多视角的语音关键词检测与定位方法,其特征在于,包括以下步骤:S1、将作为输入的待检测语音音频切分成若干语音段并存入存储设备;构建特征提取器,提取单个语音段特征,输出待检测语音特征;S2、将待检测语音特征输入到基于多视角的关键词检测模型,所述关键词检测模型包括端到端文本关键词检测模型和样例关键词检测模型;S3、将检测文本和所述待检测语音特征输入到所述端到端文本关键词检测模型,提取所述检测文本和语音特征的高层特征,使用注意力机制获得注意力权重矩阵,进行相似度计算输出一维的相似度向量;将检测语音样例和所述待检测语音特征输入到所述样例关键词检测模型,通过嵌入特征提取器输出所述检测语音样例和所述待检测语音特征的固定维度的嵌入表征,使用滑动窗口对所述待检测语音特征的嵌入表征分段并计算与所述检测语音样例的相似度,输出一维的相似度向量;S4、将S3中的端到端文本关键词检测模型和样例关键词检测模型输出的相似度向量进行加权融合,输出置信度分数;根据置信度分数判断所述语音段中是否存在待检测关键词;S5、根据S4中的置信度分数判决结果,若所述语音段中存在待检测关键词,将融合后的相似度向量进行计算得到所述待检测语音特征中关键词对应的起止帧索引,根据帧长、帧移计算所述起止帧在所述语音段中的时间位置并输出。2.根据权利要求1所述的一种基于多视角的语音关键词检测与定位方法,其特征在于,所述S1中,通过端点检测器将所述待检测语音音频分为语音段和非语音段;所述端点检测器使用基于短时能量和过零率的双门限端点检测算法;所述S1中,通过特征提取器将单个语音段中具有辨识度的语音特征提取出来,所述特征提取器包括帧特征编码器和上下文编码器;所述帧特征编码器用于将分帧后的单个所述语音段编码为若干特征表达Z
i
;所述上下文编码器用于混合多个所述特征表达Z
i
...Z
i
‑
v
并输出一个具有上下文关系的特征向量c
i
=g(Z
i
...Z
i
‑
v
)。3.根据权利要求1所述的一种基于多视角的语音关键词检测与定位方法,其特征在于,所述S3中端到端文本关键词检测,包括以下步骤:S31
‑
1:构建基于注意力机制和多任务框架的端到端文本关键词检测模型;S31
‑
2:输入所述待检测语音特征到端到端文本关键词检测模型中的声学编码模块,并输出语音特征的高层特征向量;输入所述检测文本到端到端文本关键词检测模型中的文本嵌入模块并输出文本嵌入特征向量;S31
‑
3:将语音高层特征向量和所述文本嵌入特征向量输入端到端文本关键词检测模型中的注意力编码模块,输出一个注意力权重矩阵和一个结合所述语音高层特征向量和所述文本嵌入特征向量的文本语音融合特征;S31
‑
4:以二分类判决作为辅助任务,将所述文本语音融合特征作为输入进行关键词检测,用输出范围为0
‑
1的置信度分数表示关键词是否出现在所述语音段中;S31
‑
5:以语音识别作为辅助任务,将声学编码输出的语音特征的高层特征作为输入,使用CTC损失函数进行语音识别来辅助进行关键词检测;
S31
‑
6:以相似度计算作为主任务,将所述注意力权重矩阵作为输入以输出一维的相似度向量;所述相似度向量为概率向量,相似度向量长度与所述待检测语音特征帧数相同。4.根据权利要求3所述的一种基于多视角的语音关键词检测与定位方法,其特征在于,S3中,所述端到端文本关键词检测模型包括声学编码模块、文本嵌入模块、注意力编码模块、判决模块、语音识别模块以及卷积模块;所述声学编码模块使用双向LSTM网络以及线性层,用于提取高层特征表示和挖掘输出特征时序上的相关性;所述声学编码模块的输出使用线性层对双向LSTM的隐含层输出做线性变换,使最终输出的所述语音高层特征向量和所述文本嵌入特征向量在同一嵌入空间中;所述文本嵌入模块包括嵌入层以及线性层,将关键词转化为标签序列,经过嵌入矩阵和线性变换输出文本嵌入特征向量;所述标签为声学编码模块的建模单元;所述注意力编码模块使用注意力机制得到所述语音高层特征向量和所述文本嵌入特征向量之间的注意力分数,进而从所述语音高层特征中提取与当前关键词检测所需的信息,输出一个注意力权重矩阵和一个文本语音融合特征;所述判决模块执行二分类判决任务,包括两个线性层,通过Sigmoid激活函数输出范围为0
‑
1的置信度分数;所述语音识别模块将所述语音高层特征向量作为输入,通过一个线性层和Softmax激活函数得到输出标签的概率分布,使用CTC损失函数进行语音识别;所述卷积模块使用一维卷积神经网络实现相似度计算任务,通过Sigmoid激活函数在每一帧上作二分类得到相似度向量。5.根据权利要求3所述的一种基于多视角的语音关键词检测与定位方法,其特征在于,所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。