The invention discloses an audio and video keyword recognition method and device based on neural network and inverse entropy weighting. Firstly, the lip region of the speaker in the video is directly extracted as visual features, which reduces the error of artificial visual feature extraction noise. Secondly, two-dimensional and three-dimensional convolutional neural networks are used to model the speech and visual features of keywords and non-keywords, respectively, and generate acoustic and visual templates, which can effectively extract the time-frequency characteristics and visual features of acoustic features. Thirdly, according to the acoustic template and visual template, the acoustic and visual likelihood of keywords and non-keywords can be calculated. Finally, the corresponding entropy values of acoustic and visual likelihood are calculated to generate the reliability weights of acoustic and visual modes, so as to realize the weighted fusion estimation of audio and video decision-making level. The invention can make full use of the contribution of visual information under the condition of acoustic noise and improve the performance of keyword recognition.
【技术实现步骤摘要】
一种基于神经网络和逆熵加权的音视频关键词识别方法和装置
本专利技术属于信息
,涉及一种应用在多媒体领域的关键词检索技术,具体涉及一种基于神经网络和逆熵加权的音视频关键词识别方法和装置。
技术介绍
语音是人类最直接高效、自然方便的沟通交流工具。语音关键词识别是连续语音识别的一个重要分支,它的任务是在给定的连续无限制的语音流中检测出预先设定的若干个关键词,而连续语音识别则侧重于将整段连续无限制的语音流转化为相应的文本。相较于连续语音识别,关键词识别更加灵活,对非关键词部分的发音要求较低,对环境的抗噪能力相对较强,因此更适合相关特定的应用领域,如音频文档检索,人机交互,数据挖掘,国防监听等。为了提高语音识别系统在噪声环境下的鲁棒性,近年来,音视频语音识别技术将声学和视觉信息融合来对语音进行识别,成为热门研究方向。基本上,音视频关键词识别技术的研究主要集中在三个方面:视觉特征的选取、关键词识别方法以及音视频信息的融合策略。目前用于音视频语音识别的视觉特征主要有三种:表观特征,形状特征以及混合特征。基于表观特征的方法提取整个感兴趣的图像区域或者经过处理后的变换域图像的 ...
【技术保护点】
1.一种基于神经网络和逆熵加权的音视频关键词识别方法,包括以下步骤:1)录制关键词音视频,标注出所述音视频中关键词和非关键词语音的起止时间点,根据所述关键词和非关键词语音的起止时间点提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列,根据所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列通过训练神经网络得到所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型;2)根据不同声学噪声环境下的音视频得到声学似然度和视觉似然度,根据所述声学似然度和所述视觉似然度通过计算逆熵得到声学模态可靠度、视觉模态可靠度,根据所述声学模态可靠度和所述视觉模态可靠度 ...
【技术特征摘要】
1.一种基于神经网络和逆熵加权的音视频关键词识别方法,包括以下步骤:1)录制关键词音视频,标注出所述音视频中关键词和非关键词语音的起止时间点,根据所述关键词和非关键词语音的起止时间点提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列,根据所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列通过训练神经网络得到所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型;2)根据不同声学噪声环境下的音视频得到声学似然度和视觉似然度,根据所述声学似然度和所述视觉似然度通过计算逆熵得到声学模态可靠度、视觉模态可靠度,根据所述声学模态可靠度和所述视觉模态可靠度得到最优音视频融合权重;3)根据步骤1)所述声学神经网络模型和所述视觉神经网络模型,以及步骤2)所述最优音视频融合权重,对待测音视频进行关键词识别。2.如权利要求1所述的方法,其特征在于,步骤1)包含如下步骤:1-1)根据包含关键词的抄本同步录制音视频,得到多个完整的语音段和视频段;1-2)标注出步骤1-1)中所述语音段中关键词和非关键词语音的起止时间点;1-3)根据步骤1-2)中所述关键词和非关键词语音的起止时间点,分帧、加窗后提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列;1-4)根据步骤1-3)中所述关键词和所述非关键词的语音声学特征向量序列和视觉特征向量序列,训练所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型。3.如权利要求2所述的方法,其特征在于,步骤1-4)所述声学神经网络模型是二维卷积神经网络模型,所述视觉神经网络模型是三维卷积神经网络模型。4.如权利要求2所述的方法,其特征在于,步骤2)包含如下步骤:2-1)根据已标注关键词的不同噪声环境下的音视频段,提取所述音视频段的声学特征向量序列和视觉特征向量序列;2-2)将步骤2-1)中所述声学特征向量序列输入步骤1-4)中所有关键词的声学神经网络模型,输出得到声学似然度;将步骤2-1)中所述视觉特征向量序列输入步骤1-4)中所有关键词的视觉神经网络模型,输出得到视觉似然度;2-3)根据步骤2-2)中所述声学似然度和所述视觉似然度,得到声学模态可靠度和视觉模态可靠度;2-4)根据步骤2-3)中所述声学模态可靠度和所述视觉模态可靠度得到最优音视频融合权重。5.如权利要求4所述的方法,其特征在于,步骤2-2)所述声学特征向量序列和视觉特征向量序列对于对应的声学神经网络模型和视觉神经网络模型的似然度的计算公式为:其中,A,V分别代表声学特征向量和视觉特征向量,xl为第l个关键词,Wa,Wv分别为训练得到的声学二维卷积网络和视觉三维卷积网络的参数,C是关键词的数目,oa,ov分别代表听觉和视觉卷积神经网络的输出。6.如权利要求5所述的方法,其特征在于,步骤2-3)中所述声学模态可靠度和所述视觉模态可靠度的计算公式为:7.如权利要...
【专利技术属性】
技术研发人员:丁润伟,庞程,刘宏,
申请(专利权)人:深圳市感动智能科技有限公司,北京大学深圳研究生院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。