一种多模态语音端点检测方法及装置制造方法及图纸

技术编号：25918256 阅读：24 留言：0更新日期：2020-10-13 10:37

本发明专利技术公开了一种多模态语音端点检测方法及装置，方法包括：获取待检测的视频信息，并对所述视频信息进行处理，以得到带有时间戳的音频信息和图像信息；对所述图像信息中的每一帧图片进行人物对象的检测，并将检测到人物对象的目标帧图片按照人物对象分类存储成按时间顺序排列的目标图片序列；从每个人物对象的所述目标图片序列中提取视觉信息的特征编码，并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息；从所述目标音频信息中提取语音信息的特征编码；将所述视觉信息的特征编码和语音信息的特征编码进行融合，得到融合的多模态特征编码；将所述融合的多模态特征编码输入至分类器中，以得到每个人物对象的语音活动分类结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态语音端点检测方法及装置
本专利技术涉及语音处理
，更具体地，涉及一种多模态语音端点检测方法及装置。
技术介绍
随着人机交互技术的发展，语音识别技术显示出其重要性。在语音识别系统中，语音端点检测技术是非常重要的一项技术，通常也称为语音活动性检测技术(VoiceActivityDetection，VAD)。语音端点检测是指在连续声音信号中找出语音部分的起始点和终止点。现有的语音端点检测方案，主要通过对语音信号进行提取和分类来确定语音起始点和终止点，但是，此方案在信噪比降低、噪声环境复杂的情况下，检测效果急剧下降。
技术实现思路
鉴于上述问题，本专利技术提出了一种多模态语音端点检测方法和相应的装置，其可以有效提高VAD在噪声环境下的性能。根据本专利技术实施例的第一方面，提供一种多模态语音端点检测方法，包括：获取待检测的视频信息，并对所述视频信息进行处理，以得到带有时间戳的音频信息和图像信息；对所述图像信息中的每一帧图片进行人物对象的检测，当从所述图片中检测到人物对象时，按照人物对象从所述图片中获取每个人物对象对应的目标图片，并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列；从每个人物对象的所述目标图片序列中提取视觉信息的特征编码，并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息；从所述目标音频信息中提取语音信息的特征编码；将所述视觉信息的特征编码和语音信息的特征编码进行融合，得到融合的多模态特征编码...

【技术保护点】
1.一种多模态语音端点检测方法，其特征在于，包括：/n获取待检测的视频信息，并对所述视频信息进行处理，以得到带有时间戳的音频信息和图像信息；/n对所述图像信息中的每一帧图片进行人物对象的检测，当从所述图片中检测到人物对象时，按照人物对象从所述图片中获取每个人物对象对应的目标图片，并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列；/n从每个人物对象的所述目标图片序列中提取视觉信息的特征编码，并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息；/n从所述目标音频信息中提取语音信息的特征编码；/n将所述视觉信息的特征编码和语音信息的特征编码进行融合，得到融合的多模态特征编码；/n将所述融合的多模态特征编码输入至分类器中，以得到每个人物对象的语音活动分类结果。/n

【技术特征摘要】
1.一种多模态语音端点检测方法，其特征在于，包括：
获取待检测的视频信息，并对所述视频信息进行处理，以得到带有时间戳的音频信息和图像信息；
对所述图像信息中的每一帧图片进行人物对象的检测，当从所述图片中检测到人物对象时，按照人物对象从所述图片中获取每个人物对象对应的目标图片，并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列；
从每个人物对象的所述目标图片序列中提取视觉信息的特征编码，并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息；
从所述目标音频信息中提取语音信息的特征编码；
将所述视觉信息的特征编码和语音信息的特征编码进行融合，得到融合的多模态特征编码；
将所述融合的多模态特征编码输入至分类器中，以得到每个人物对象的语音活动分类结果。

2.根据权利要求1所述的多模态语音端点检测方法，其特征在于，对所述图像信息中的每一帧图片进行人物对象的检测，当从所述图片中检测到人物对象时，按照人物对象从所述图片中获取每个人物对象对应的目标图片，并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列，包括：
检测所述每一帧图片是否包含人物对象；
当所述图片中不包含人物对象时，将所述图片判定为非语音活动图片；
当所述图片中包含人物对象时，从所述图片中获取每个人物对象对应的目标图片；
对于每个人物对象，获取包含该人物对象的所有目标图片，并按照时间顺序存储成目标图片序列。

3.根据权利要求1所述的多模态语音端点检测方法，其特征在于，从每个人物对象的所述目标图片序列中提取视觉信息的特征编码，并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息，包括：
按照预设时间间隔，将每个人物对象的所述目标图片序列等间隔的分割成多个片段；
分别从每个片段中提取视觉信息的特征编码，并获取每个片段对应的时间间隔内的音频信息片段。

4.根据权利要求3所述的多模态语音端点检测方法，其特征在于，从所述目标音频信息中提取语音信息的特征编码，包括：
从所述音频信息片段中提取语音信息的特征编码。

5.根据权利要求1至4中任一项所述的多模态语音...

【专利技术属性】
技术研发人员：刘高成，
申请(专利权)人：云知声智能科技股份有限公司，厦门云知芯智能科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人