【技术实现步骤摘要】
基于注意力机制声学词嵌入特征的语音样例检测方法及系统
[0001]本专利技术涉及声学数据处理
,具体涉及一种基于注意力机制声学词嵌入特征的语音样例检测方法及系统。
技术介绍
[0002]语音样例检测,简而言之就是将语音样例作为输入,比较其与待检测音频之间的声学相似度,在设置一个阈值来判断是否含有语音样例的一项技术。该技术主要分为两部分:1、特征提取;2、模板匹配。如何提取出富含语义信息,同时压缩非语义信息(如说话人信息、环境噪声等)的特征成为语音样例检测的一大问题。传统方法采用音素后验概率或通过深度学习训练出的瓶颈特征作为语音特征,再利用动态时间规整计算语音间相似度,然后根据相似度大小进行排名从而获得最终的检索结果。
[0003]由于动态时间规整所采用的帧级别特征(如音素后验概率,瓶颈特征等)的识别能力有限,基于动态时间规整的方法的搜索质量依然落后。此外,动态时间规整计算本身在大型音频集合中进行搜索的效率依然低下。近些年来,研究人员采用声学词嵌入特征的直接匹配方法作为动态时间规整的替代方法。声学词嵌入特征旨在将 ...
【技术保护点】
【技术特征摘要】
1.一种基于注意力机制声学词嵌入特征的语音样例检测方法,其特征在于,包括下述步骤:将语音数据集通过标注信息所提供的词级别时间戳集切分为具有不同词语信息的语音片段,对切分后的语音片段进行零值填充和上下文填充,得到固定时长的语音片段;构建基于注意力机制的声学词嵌入特征神经网络,包括:查询网络、比对网络和输出网络,所述查询网络和比对网络均设有位置编码模块、自注意力机制模块,所述输出网络设有跨注意力机制模块和输出模块;所述位置编码模块通过正弦函数和余弦函数构造一个与输入特征向量维度相同且包含输入特征相对时间位置信息的特征向量,将该位置特征向量与输入特征向量进行相加,从而实现位置编码;所述自注意力机制模块用于构建输入特征的上下文表示,得到输入每一帧与全局的注意力权重矩阵,通过注意力权重矩阵计算每一帧输入与全局的加权和,最终得到自注意力机制模块的输出;所述跨注意力机制模块用于根据查询网络的信息从比对网络提取所需内容信息;所述输出模块将跨注意力机制模块的输出进行拼接,并最终转化为固定维度的特征向量,最终以此特征向量作为声学词嵌入特征;将语音片段构造成三元损失函数所需的三元组形式,三元组包括锚点样例、正样例和负样例,对三元组提取对数梅尔谱特征,将锚点特征固定输入到查询网络,将锚点特征、正样例特征和负样例特征依次输入到比对网络,在声学词嵌入特征神经网络的输出模块得到三个声学词嵌入特征,以三元损失函数为目标训练声学词嵌入特征神经网络;将训练后的声学词嵌入特征神经网络作为声学词嵌入特征提取器,使用声学词嵌入特征进行语音样例检测,得到语音样例检测结果。2.根据权利要求1所述的基于注意力机制声学词嵌入特征的语音样例检测方法,其特征在于,对切分后的语音片段进行零值填充,具体填充方式如下:其中,W1(n)为语音片段,1≤n≤L1,L1为语音片段的长度,W2(m)为填充后语音片段,1≤m≤L2,L2为填充后语音片段的长度,L1≤L2;零值填充后所有语音片段扩展为预设长度,且原语音片段出现在填充后语音片段的中心位置。3.根据权利要求1所述的基于注意力机制声学词嵌入特征的语音样例检测方法,其特征在于,对切分后的语音片段进行上下文填充,具体采用原语音片段的上下文音段进行填充,具体填充方式如下:
其中,W1(n)为语音片段,1≤n≤L1,L1为语音片段的长度,W2(m)为填充后语音片段,1≤m≤L2,L2为填充后语音片段的长度,L1≤L2,а表示随机数;上下文填充后的语音片段为预设长度,且原语音片段出现在填充后语音片段的随机位置,若原语音片段的上下文音段不足则采用零值填充。4.根据权利要求1所述的基于注意力机制声学词嵌入特征的语音样例检测方法,其特征在于,所述位置编码模块通过正弦函数和余弦函数构造一个与输入特征向量维度相同且包含输入特征相对时间位置信息的特征向量,具体包括:给定一个长度为n的输入特征,t表示在输入特征中的位置,表示t位置对应的输入特征向量,表示t位置对应的位置向量,d是向量的维度,f:是生成位置向量的函数,定义如下:其中,i表示相应的维度,频率w
k
定义如下:位置向量是一个包含各个频率的正弦和余弦对,表示为:得到位置向量后,通过正弦和余弦函数,位置向量包含输入特征向量的相对时间位置信息,对输入特征向量进行位置编码,具体操作为:其中,为位置编码后的输入特征向量。5.根据权利要求1所述的基于注意力机制声学词嵌入特征的语音样例检测方法,其特征在于,所述跨注意力机制模块用于根据查询网络的信息从比对网络提取所需内容信息,具体包括:跨注意力机制模块得到查询网络输入每一帧与比对网络输入全局的注意力权重矩阵,
通过注意力权重矩阵计算查询网络输入每一帧与比对输入网络输入全局的加权和,最终得到跨注意力机制模块的输出。6....
【专利技术属性】
技术研发人员:贺前华,徐剑斌,郑若伟,李学高,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。