本发明专利技术提供一种唇语关键词检测方法、装置、设备及存储介质,其中方法包括:通过DNN方法训练,得到一个二分类的DNN模型;基于所述DNN模型,判断待检测的唇语视频中的每帧唇部图片的讲话状态,分离出所述唇语视频的讲话片段和非讲话片段;提取所述讲话片段,并通过唇语识别模型提取查询样例和讲话片段的每一帧唇部图片的特征,作为后验概率特征;基于所述后验概率特征构建相似度矩阵图;通过卷积神经网络分类模型对所述相似度矩阵图进行二分类,判断唇语视频中是否存在关键词。本发明专利技术通过端点检测、唇语识别器提取特征和构建相似度矩阵图,可降低未讲话片段对唇语关键词检测性能的影响,提高关键词检测的性能。
【技术实现步骤摘要】
一种唇语关键词检测方法、装置、设备及存储介质
本专利技术涉及人工智能领域,具体而言,涉及一种唇语关键词检测、装置、设备及存储介质。
技术介绍
近年来经济建设发展迅猛,信息技术与科技水平不断提高,网络速度不断提高,存储成本不断降低,监控摄像头遍布各地。面对如此多的监控摄像头,大部分监控受限于成本或技术,无法获取用户说话的语音内容,从而无法根据语音识别讲话内容,而唇语识别只要“看到”嘴形就能进行内容识别,在安防领域可以发挥出重大作用。然而从对监控视频的利用层面来说,往往并不需要进行完整的唇语识别,知道完整的说话内容,需要的只是几个关键词的识别检测。唇语关键词检测在安防领域能够起到重要的作用。但是,唇语识别技术在实际应用中还存在很多困难,因此,对这些监控视频进行准确的唇语识别是一件比较困难的事情。目前,唇语关键词检测的研究较少,唇语关键词检测的数据集中,有一些未讲话的片段,这些片段若是比较长,会对关键词检测产生影响,但是,关键词检测在语音识别这个领域已经有了长足的发展。在语音识别领域中,关键词检测方法主要有三类:基于补白模型的方法、基于样例的方法和基于大词汇量连续语音识别系统的方法。基于样例的语音关键词检测方法,输入的查询样例是少量含有关键词样例的语音片段,与测试语音片段进行相似度计算,如果相似度超过某个阈值,则认为测试音频中含有关键词。常用的一类方法是基于动态时间规整(dynamictimewarping,DTW)的方法,使用DTW算法来计算两个音频特征序列之间的相似度,早期常常使用声学特征作为音频特征,但是容易受环境、信道、讲话人等外部因素的影响。后来引入了后验概率特征,降低了讲话人和环境对关键词检测系统影响。对于后验概率特征的计算,通常通过搭建音素解码器将关键词音频与测试音频转换成固定长度的嵌入向量。早期使用人工神经网络,后来,随着深度学习的发展,通常使用深度神经网络、LSTM等搭建音素识别器。
技术实现思路
本专利技术的目的在于提供一种唇语关键词检测方法、装置、设备及存储介质用以解决上述问题。本专利技术实施例提供了一种唇语关键词检测方法,其包括:通过DNN方法训练,得到一个二分类的DNN模型;基于所述DNN模型,判断待检测的唇语视频中的每帧唇部图片的讲话状态,分离出所述唇语视频的讲话片段和非讲话片段;提取所述讲话片段,并通过唇语识别模型提取查询样例和讲话片段的每一帧唇部图片的特征,作为后验概率特征;基于所述后验概率特征构建相似度矩阵图;通过卷积神经网络分类模型对所述相似度矩阵图进行二分类,判断唇语视频中是否存在关键词。进一步的,所述整个唇语视频分为8个状态:未知状态、讲话开始状态、讲话状态、讲话结束状态、非讲话开始状态、非讲话状态、非讲话结束状态、结束状态;其中:在所述讲话开始状态之前和所述讲话结束状态之后,补一段非讲话帧,以防止判断过程中的误判。进一步的,所述唇语识别模型具体用于:通过三维卷积和二维Densenet提取唇部图片序列的视觉特征;通过resBi-sLSTM解码所述视觉特征;通过CTC损失函数对解码视觉特征进行训练。进一步的,所述基于所述后验概率特征构建相似度矩阵图具体为:将查询样例的后验概率特征与讲话片段的后验概率特征进行向量点积运算,取对数获得相似度矩阵图;其中,向量点积运算及取对数的过程为:d(qi,xj)=log(qi·xj)其中,1≤i≤m且1≤j≤n,m和n分别代表查询样例和唇语片段的帧数,计算得到的距离矩阵d的值越高,则表示这两个向量之间的相似度越高。更进一步的,还包括:对所述距离矩阵d的值做归一化计算,使相似性矩阵中的所有值都处于[-1,1]区间内,计算过程如下:进一步的,所述卷积神经网络分类模型具体用于:通过6层卷积、2层maxpool、自适应均值池化和全连接层构建;通过负对数似然(NegativeLogLikelihood,NLL)损失函数进行训练。更进一步的,所述负对数似然损失函数对softmax的输出概率取对数后的值进行损失函数计算,公式如下:其中,N代表N个数据,yi是真实标签对应的one-hot编码,代表标签是第i类,qi是softmax取对数后的输出。本专利技术实施例还提供一种唇语关键词检测装置,包括:训练模块,用于通过DNN方法训练,得到一个二分类的DNN模型;分离模块,用于基于所述DNN模型,判断待检测的唇语视频中的每帧唇部图片的讲话状态,分离出所述唇语视频的讲话片段和非讲话片段;提取模块,用于提取所述讲话片段,并通过唇语识别模型提取查询样例和讲话片段的每一帧唇部图片的特征,作为后验概率特征;构建模块,用于基于所述后验概率特征构建相似度矩阵图;分类模块,用于通过卷积神经网络分类模型对所述相似度矩阵图进行二分类,判断唇语视频中是否存在关键词。本专利技术实施例还提供了一种唇语关键词检测设备,包括存储器以及处理器,所述存储器内存储有计算机程序,所述处理器用于运行所述计算机程序以实现所述的一种唇语关键词检测方法。本专利技术实施例还提供了一种存储介质,所述存储介质用于存储至少一个程序,至少一个指令,所述至少一个程序、指令被执行以实现所述的一种唇语关键词检测方法。本专利技术实施例具有如下有益技术效果:通过DNN进行唇语活动端点检测,对唇语视频的状态进行分析,去除唇语视频中未讲话的部分,提高关键词检测的性能;通过使用唇语识别器提取唇语视频中的后验概率特征,这类特征能够更好地表述唇语视频的语义特征;根据后验概率特征,构建相似度矩阵图,然后使用CNN分类器对相似图进行二分类,判断关键词是否存在于唇语视频中,这类方法相比如其它DTW方法,能够提高关键词检测的性能。附图说明为了更清楚地说明本专利技术实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术第一实施例提供的唇语关键词检测方法的一种流程示意图。图2为本专利技术第一实施例提供的唇语关键词检测方法的的另一种流程示意图。图3为本专利技术实施例提供的唇语识别模型流程示意图。图4为本专利技术实施例提供的CNN分类器结构示意图。图5为本专利技术第二实施例提供的一种唇语关键词检测装置的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。以下详述本专利技术实施例的具体内容。如图1-2所示,本专利技术第一本文档来自技高网...
【技术保护点】
1.一种唇语关键词检测方法,其特征在于,包括以下步骤:/n通过DNN方法训练,得到一个二分类的DNN模型;/n基于所述DNN模型,判断待检测的唇语视频中的每帧唇部图片的讲话状态,分离出所述唇语视频的讲话片段和非讲话片段;/n提取所述讲话片段,并通过唇语识别模型提取查询样例和讲话片段的每一帧唇部图片的特征,作为后验概率特征;/n基于所述后验概率特征构建相似度矩阵图;/n通过卷积神经网络分类模型对所述相似度矩阵图进行二分类,判断唇语视频中是否存在关键词。/n
【技术特征摘要】
1.一种唇语关键词检测方法,其特征在于,包括以下步骤:
通过DNN方法训练,得到一个二分类的DNN模型;
基于所述DNN模型,判断待检测的唇语视频中的每帧唇部图片的讲话状态,分离出所述唇语视频的讲话片段和非讲话片段;
提取所述讲话片段,并通过唇语识别模型提取查询样例和讲话片段的每一帧唇部图片的特征,作为后验概率特征;
基于所述后验概率特征构建相似度矩阵图;
通过卷积神经网络分类模型对所述相似度矩阵图进行二分类,判断唇语视频中是否存在关键词。
2.根据权利要求1所述的一种唇语关键词检测方法,其特征在于,所述整个唇语视频分为8个状态:
未知状态、讲话开始状态、讲话状态、讲话结束状态、非讲话开始状态、非讲话状态、非讲话结束状态、结束状态;其中:
在所述讲话开始状态之前和所述讲话结束状态之后,补一段非讲话帧,以防止判断过程中的误判。
3.根据权利要求1所述的一种唇语关键词检测方法,其特征在于,所述唇语识别模型具体用于:
通过三维卷积和二维Densenet提取唇部图片序列的视觉特征;
通过resBi-sLSTM解码所述视觉特征;
通过CTC损失函数对解码视觉特征进行训练。
4.根据权利要求1所述的一种唇语关键词检测方法,其特征在于,所述基于所述后验概率特征构建相似度矩阵图具体为:
将查询样例的后验概率特征与讲话片段的后验概率特征进行向量点积运算,取对数获得相似度矩阵图;其中,向量点积运算及取对数的过程为:
d(qi,xj)=log(qi·xj)
其中,1≤i≤m且1≤j≤n,m和n分别代表查询样例和唇语片段的帧数,计算得到的距离矩阵d的值越高,则表示这两个向量之间的相似度越高。
5.根据权利要求4所述的一种唇语关键词检测方法,其特征在于,还包括:
对所述距离矩阵d的值做...
【专利技术属性】
技术研发人员:杜吉祥,陈雪娟,张洪博,翟传敏,
申请(专利权)人:华侨大学,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。