一种多模态语音端点检测方法及装置制造方法及图纸

技术编号:25918256 阅读:24 留言:0更新日期:2020-10-13 10:37
本发明专利技术公开了一种多模态语音端点检测方法及装置,方法包括:获取待检测的视频信息,并对所述视频信息进行处理,以得到带有时间戳的音频信息和图像信息;对所述图像信息中的每一帧图片进行人物对象的检测,并将检测到人物对象的目标帧图片按照人物对象分类存储成按时间顺序排列的目标图片序列;从每个人物对象的所述目标图片序列中提取视觉信息的特征编码,并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息;从所述目标音频信息中提取语音信息的特征编码;将所述视觉信息的特征编码和语音信息的特征编码进行融合,得到融合的多模态特征编码;将所述融合的多模态特征编码输入至分类器中,以得到每个人物对象的语音活动分类结果。

【技术实现步骤摘要】
一种多模态语音端点检测方法及装置
本专利技术涉及语音处理
,更具体地,涉及一种多模态语音端点检测方法及装置。
技术介绍
随着人机交互技术的发展,语音识别技术显示出其重要性。在语音识别系统中,语音端点检测技术是非常重要的一项技术,通常也称为语音活动性检测技术(VoiceActivityDetection,VAD)。语音端点检测是指在连续声音信号中找出语音部分的起始点和终止点。现有的语音端点检测方案,主要通过对语音信号进行提取和分类来确定语音起始点和终止点,但是,此方案在信噪比降低、噪声环境复杂的情况下,检测效果急剧下降。
技术实现思路
鉴于上述问题,本专利技术提出了一种多模态语音端点检测方法和相应的装置,其可以有效提高VAD在噪声环境下的性能。根据本专利技术实施例的第一方面,提供一种多模态语音端点检测方法,包括:获取待检测的视频信息,并对所述视频信息进行处理,以得到带有时间戳的音频信息和图像信息;对所述图像信息中的每一帧图片进行人物对象的检测,当从所述图片中检测到人物对象时,按照人物对象从所述图片中获取每个人物对象对应的目标图片,并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列;从每个人物对象的所述目标图片序列中提取视觉信息的特征编码,并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息;从所述目标音频信息中提取语音信息的特征编码;将所述视觉信息的特征编码和语音信息的特征编码进行融合,得到融合的多模态特征编码;将所述融合的多模态特征编码输入至分类器中,以得到每个人物对象的语音活动分类结果。在一个实施例中,优选地,对所述图像信息中的每一帧图片进行人物对象的检测,并将检测到人物对象的目标帧图片按照人物对象分类存储成按时间顺序排列的目标图片序列,包括:检测所述每一帧图片是否包含人物对象;当所述图片中不包含人物对象时,将所述图片判定为非语音活动图片;当所述图片中包含人物对象时,从所述图片中获取每个人物对象对应的目标图片;对于每个人物对象,获取包含该人物对象的所有目标图片,并按照时间顺序存储成目标图片序列。在一个实施例中,优选地,从每个人物对象的所述目标图片序列中提取视觉信息的特征编码,并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息,包括:按照预设时间间隔,将每个人物对象的所述目标图片序列等间隔的分割成多个片段;分别从每个片段中提取视觉信息的特征编码,并获取每个片段对应的时间间隔内的音频信息片段。在一个实施例中,优选地,从所述目标音频信息中提取语音信息的特征编码,包括:从所述音频信息片段中提取语音信息的特征编码。在一个实施例中,优选地,所述视觉信息至少包括嘴部特征信息。根据本专利技术实施例的第二方面,提供一种多模态语音端点检测装置,包括:处理模块,用于获取待检测的视频信息,并对所述视频信息进行处理,以得到带有时间戳的音频信息和图像信息;存储模块,用于对所述图像信息中的每一帧图片进行人物对象的检测,当从所述图片中检测到人物对象时,按照人物对象从所述图片中获取每个人物对象对应的目标图片,并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列;第一提取模块,用于从每个人物对象的所述目标图片序列中提取视觉信息的特征编码,并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息;第二提取模块,用于从所述目标音频信息中提取语音信息的特征编码;融合模块,用于将所述视觉信息的特征编码和语音信息的特征编码进行融合,得到融合的多模态特征编码;分类模块,用于将所述融合的多模态特征编码输入至分类器中,以得到每个人物对象的语音活动分类结果。在一个实施例中,优选地,所述存储模块包括:检测单元,用于检测所述每一帧图片是否包含人物对象;判定单元,用于当所述图片中不包含人物对象时,将所述图片判定为非语音活动图片;分类单元,用于当所述图片中包含人物对象时,从所述图片中获取每个人物对象对应的目标图片;获取单元,用于对于每个人物对象,获取包含该人物对象的所有目标帧图片,并按照时间顺序存储成目标图片序列。在一个实施例中,优选地,所述第一提取模块包括:分割单元,用于按照预设时间间隔,将每个人物对象的所述目标图片序列等间隔的分割成多个片段;提取单元,用于分别从每个片段中提取视觉信息的特征编码,并获取每个片段对应的时间间隔内的音频信息片段。在一个实施例中,优选地,所述第二提取模块用于:从所述音频信息片段中提取语音信息的特征编码。在一个实施例中,优选地,所述视觉信息至少包括嘴部特征信息。、根据本专利技术实施例的第三方面,提供一种多模态语音端点检测装置,包括:存储器和处理器;所述存储器用于保存所述处理器执行计算机程序时所使用的数据;所述处理器用于执行计算机程序以实现上述第一方面所述的实施例中任意一项所述的方法。根据本专利技术实施例的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在设备上运行时,所述设备执行如第一方面实施例中任一项所述的方法。本专利技术实施例中,由于在用户说话时,面部动作以及身体动作这些视觉信息不会受复杂噪声环境的干扰,因此,本专利技术将视觉信息和语音信息结合来进行语音端点的检测,从而可以有效的提高VAD在噪声环境下的性能,并且通过对不同人物对象的判断,在语音端点检测的同时,还可以有效的判别出说话人,从而为其他相关任务提高辅助信息。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例的一种多模态语音端点检测方法的流程图。图2是本专利技术一个实施例的一种多模态语音端点检测方法中步骤S102的流程图。图3是本专利技术一个实施例的一种多模态语音端点检测方法中步骤S103的流程图。图4是本专利技术一个实施例的一种多模态语音端点检测装置的框图。图5是本专利技术一个实施例的一种多模态语音端点检测装置中存储模块的框图。图6是本专利技术一个实施例的一种多模态语音端点检测装置中第一提取模块的框图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。在本专利技术的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这本文档来自技高网
...

【技术保护点】
1.一种多模态语音端点检测方法,其特征在于,包括:/n获取待检测的视频信息,并对所述视频信息进行处理,以得到带有时间戳的音频信息和图像信息;/n对所述图像信息中的每一帧图片进行人物对象的检测,当从所述图片中检测到人物对象时,按照人物对象从所述图片中获取每个人物对象对应的目标图片,并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列;/n从每个人物对象的所述目标图片序列中提取视觉信息的特征编码,并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息;/n从所述目标音频信息中提取语音信息的特征编码;/n将所述视觉信息的特征编码和语音信息的特征编码进行融合,得到融合的多模态特征编码;/n将所述融合的多模态特征编码输入至分类器中,以得到每个人物对象的语音活动分类结果。/n

【技术特征摘要】
1.一种多模态语音端点检测方法,其特征在于,包括:
获取待检测的视频信息,并对所述视频信息进行处理,以得到带有时间戳的音频信息和图像信息;
对所述图像信息中的每一帧图片进行人物对象的检测,当从所述图片中检测到人物对象时,按照人物对象从所述图片中获取每个人物对象对应的目标图片,并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列;
从每个人物对象的所述目标图片序列中提取视觉信息的特征编码,并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息;
从所述目标音频信息中提取语音信息的特征编码;
将所述视觉信息的特征编码和语音信息的特征编码进行融合,得到融合的多模态特征编码;
将所述融合的多模态特征编码输入至分类器中,以得到每个人物对象的语音活动分类结果。


2.根据权利要求1所述的多模态语音端点检测方法,其特征在于,对所述图像信息中的每一帧图片进行人物对象的检测,当从所述图片中检测到人物对象时,按照人物对象从所述图片中获取每个人物对象对应的目标图片,并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列,包括:
检测所述每一帧图片是否包含人物对象;
当所述图片中不包含人物对象时,将所述图片判定为非语音活动图片;
当所述图片中包含人物对象时,从所述图片中获取每个人物对象对应的目标图片;
对于每个人物对象,获取包含该人物对象的所有目标图片,并按照时间顺序存储成目标图片序列。


3.根据权利要求1所述的多模态语音端点检测方法,其特征在于,从每个人物对象的所述目标图片序列中提取视觉信息的特征编码,并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息,包括:
按照预设时间间隔,将每个人物对象的所述目标图片序列等间隔的分割成多个片段;
分别从每个片段中提取视觉信息的特征编码,并获取每个片段对应的时间间隔内的音频信息片段。


4.根据权利要求3所述的多模态语音端点检测方法,其特征在于,从所述目标音频信息中提取语音信息的特征编码,包括:
从所述音频信息片段中提取语音信息的特征编码。


5.根据权利要求1至4中任一项所述的多模态语音...

【专利技术属性】
技术研发人员:刘高成
申请(专利权)人:云知声智能科技股份有限公司厦门云知芯智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1