【技术实现步骤摘要】
本申请属于音像识别,尤其涉及基于多模态的话者分离方法、装置、设备及存储介质。
技术介绍
1、说话人分离(speaker diarization),也叫话者分离,是指将语音按照说话人id分类,解决“who spoke when”的问题。现有技术中解决话者分离的问题,主要有以下几种方法:通过集成麦克风阵列的拾音麦克风进行话者分离和通过手拉手的鹅颈麦会议系统进行话者分离。
2、其中,通过集成麦克风阵列的拾音麦克风进行话者分离,是通过麦克风阵列拾取音频,麦克风阵列的音频算法对原始音频进行信号处理后,送给语音识别和话者分离引擎做音频处理,语音识别引擎输出语音转文字的结果,话者分离引擎对并给每段文字标记出说话人的信息。
3、通过手拉手的鹅颈麦会议系统进行话者分离,是通过每位参会人,面前有一个专用的鹅颈麦,通过不同的物理设备,可以区分出音频来源,不同来源的音频分别送识别引擎,从而实现说话人区分。
4、但是现有技术中的话者分离方法存在着不同的缺陷,
5、其中,通过集成麦克风阵列的拾音麦克风进行话者分离,只
...【技术保护点】
1.一种基于多模态的话者分离方法,其特征在于,所述方法包括:
2.如权利要求1所述的话者分离方法,其特征在于,对所述图像数据进行处理还得到话者唇部运动特征,
3.如权利要求1所述的话者分离方法,其特征在于,对所述音频数据进行处理得到话者DOA角度和DOA事件的开始时间和结束时间之前,还包括对所述音频数据进行降噪处理。
4.如权利要求1所述的话者分离方法,其特征在于,所述图像数据和所述音频数据在时域上对齐,所述对齐方法包括:在获取所述原始数据时,保持所述图像数据和所述音频数据的同步获取。
5.如权利要求4所述的话者分离方法
...【技术特征摘要】
1.一种基于多模态的话者分离方法,其特征在于,所述方法包括:
2.如权利要求1所述的话者分离方法,其特征在于,对所述图像数据进行处理还得到话者唇部运动特征,
3.如权利要求1所述的话者分离方法,其特征在于,对所述音频数据进行处理得到话者doa角度和doa事件的开始时间和结束时间之前,还包括对所述音频数据进行降噪处理。
4.如权利要求1所述的话者分离方法,其特征在于,所述图像数据和所述音频数据在时域上对齐,所述对齐方法包括:在获取所述原始数据时,保持所述图像数据和所述音频数据的同步获取。
5.如权利要求4所述的话者分离方法,其特征在于,所述对齐方法还包括:在对所述原始数据进行处理时,分别减去所述图像数据对应的处理延时和所述音频数据对应的处理延时。
6.如权利要求1所述的话者分离方法,其特征在于,通过图像识别技术...
【专利技术属性】
技术研发人员:宋洪博,王艳龙,陈永波,沈峥嵘,储磊,
申请(专利权)人:思必驰科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。