基于多模态的话者分离方法、装置、设备及存储介质制造方法及图纸

技术编号：40094692 阅读：14 留言：0更新日期：2024-01-23 16:45

本申请公开一种基于多模态的话者分离方法、装置、设备及存储介质，涉及音像识别技术领域。该方法包括：获取原始数据，对所述原始数据进行处理，得到多模态数据，对所述多模态数据进行处理得到话者分离结果。处理方法包括：基于所述话者位置坐标和所述话者DOA角度，判断在所述话者DOA角度上是否存在说话人，若存在则根据所述DOA事件的开始时间和结束时间对所述每个话者对应的FaceID进行时间标记，结合话者数量和话者声纹特征得到话者分离结果。本申请实施例和现有技术相比，可以有效区分相似嗓音的说话人，提高区分的准确率；可以在多人同时说话的情况下，准确地捕捉到当前的说话人，并记录说话人说话的开始时间和结束时间，提高话者分离的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于音像识别，尤其涉及基于多模态的话者分离方法、装置、设备及存储介质。

技术介绍

1、说话人分离(speaker diarization)，也叫话者分离，是指将语音按照说话人id分类，解决“who spoke when”的问题。现有技术中解决话者分离的问题，主要有以下几种方法：通过集成麦克风阵列的拾音麦克风进行话者分离和通过手拉手的鹅颈麦会议系统进行话者分离。

2、其中，通过集成麦克风阵列的拾音麦克风进行话者分离，是通过麦克风阵列拾取音频，麦克风阵列的音频算法对原始音频进行信号处理后，送给语音识别和话者分离引擎做音频处理，语音识别引擎输出语音转文字的结果，话者分离引擎对并给每段文字标记出说话人的信息。

3、通过手拉手的鹅颈麦会议系统进行话者分离，是通过每位参会人，面前有一个专用的鹅颈麦，通过不同的物理设备，可以区分出音频来源，不同来源的音频分别送识别引擎，从而实现说话人区分。

4、但是现有技术中的话者分离方法存在着不同的缺陷，

5、其中，通过集成麦克风阵列的拾音麦克风进行话者分离，只...

【技术保护点】

1.一种基于多模态的话者分离方法，其特征在于，所述方法包括：

2.如权利要求1所述的话者分离方法，其特征在于，对所述图像数据进行处理还得到话者唇部运动特征，

3.如权利要求1所述的话者分离方法，其特征在于，对所述音频数据进行处理得到话者DOA角度和DOA事件的开始时间和结束时间之前，还包括对所述音频数据进行降噪处理。

4.如权利要求1所述的话者分离方法，其特征在于，所述图像数据和所述音频数据在时域上对齐，所述对齐方法包括：在获取所述原始数据时，保持所述图像数据和所述音频数据的同步获取。

5.如权利要求4所述的话者分离方法，其特征在于，所述对...

【技术特征摘要】

1.一种基于多模态的话者分离方法，其特征在于，所述方法包括：

2.如权利要求1所述的话者分离方法，其特征在于，对所述图像数据进行处理还得到话者唇部运动特征，

3.如权利要求1所述的话者分离方法，其特征在于，对所述音频数据进行处理得到话者doa角度和doa事件的开始时间和结束时间之前，还包括对所述音频数据进行降噪处理。

5.如权利要求4所述的话者分离方法，其特征在于，所述对齐方法还包括：在对所述原始数据进行处理时，分别减去所述图像数据对应的处理延时和所述音频数据对应的处理延时。

6.如权利要求1所述的话者分离方法，其特征在于，通过图像识别技术...

【专利技术属性】
技术研发人员：宋洪博，王艳龙，陈永波，沈峥嵘，储磊，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人