视频图像中人物说话的识别方法和装置制造方法及图纸

技术编号:24252032 阅读:45 留言:0更新日期:2020-05-22 23:49
本申请公开了一种视频图像中人物说话的识别方法和装置,其中方法包括:a、将待检测视频流的起始帧作为当前的检测帧;b、从当前的检测帧开始,逐帧检测当前是否存在满足说话识别条件的视频帧序列;说话识别条件为连续多帧均包含预设的人脸口部特征点集合对应的特征数据;c、当检测到所述视频帧序列时,根据其对应的特征数据,确定当前的说话临界判断值;d、利用该说话临界判断值,逐一对所述视频帧序列的后续帧中包含的相应人像进行说话状态的识别,直至当前帧中不存在所述人像或者当前帧为所述视频流的最后一帧;e、如果当前帧中不存在所述人像且当前帧不是最后一帧,则将本帧作为当前的检测帧,返回步骤b。本发明专利技术易于实现、可以广泛应用。

Recognition method and device of human speech in video image

【技术实现步骤摘要】
视频图像中人物说话的识别方法和装置
本专利技术涉及移动通信技术,特别是涉及一种视频图像中人物说话的识别方法和装置。
技术介绍
随着计算机视觉的不断发展,人脸识别相关算法不断完善,应用场景的不断增多,人脸识别的技术尽管仍存在一些问题,但较早年已相对成熟。在现实场景中,人脸识别技术已经应用于数码相机、门禁系统、身份识别、网络应用、娱乐应用等多个相关领域,如:人脸自动对焦和笑脸快门技术、受安全保护的地区可以通过人脸识别辨识试图进入者的身份、电子护照及身份证识别、辅助信用卡网络支付、图片对比等。现今对于说话人识别的相关领域技术主要为通过对说话人语音信号的分析处理,自动确认是别人是否在所记录的话者集合中,以及进一步确认说话人是谁,主要应用于音频领域的识别。而与判断视频图像中人物是否说话的方法具有相关性的姿态识别算法主要以深度学习的训练为主,与其他深度学习的情况类似,也存在着:需要以大量数据作为训练基础,训练所得的结果难以应用到其他问题上的局限性。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种视频图像中人物说话的识别方法和装置,易于实现,具有广泛的应用性。为了达到上述目的,本专利技术提出的技术方案为:一种视频图像中人物说话的识别方法,包括:a、将待检测视频流的起始帧作为当前的检测帧;b、从当前的检测帧开始,逐帧检测当前是否存在满足说话识别条件的视频帧序列;所述说话识别条件为连续N帧均包含预设的人脸口部特征点集合对应的特征数据,N≥1;c、当检测到所述视频帧序列时,根据该视频帧序列对应的特征数据,确定当前的说话临界判断值;d、利用所述说话临界判断值,逐一对所述视频帧序列的后续帧中包含的相应人像的说话状态进行识别,直至当前帧中不存在所述人像或者当前帧为所述视频流的最后一帧;e、如果当前帧中不存在所述人像且当前帧不是所述视频流的最后一帧,则将本帧作为当前的检测帧,返回步骤b。较佳地,所述逐帧判断当前是否存在满足说话识别条件的视频帧序列包括:从当前的检测帧开始,逐帧检测当前帧是否包含人脸且包含了所述人脸口部特征点集合的特征数据,如果是,则记录人脸所在区域的编号,在后续帧中根据所述编号,进行相应的人脸检测,并在检测到连续N帧均包含所述人脸口部特征点集合的特征数据时,将该连续N帧确定为当前满足所述说话识别条件的视频帧序列。较佳地,步骤c中所述确定当前的说话临界判断值包括:对于当前满足所述说话识别条件的视频帧序列的每一帧,计算该帧对应的所述人脸口部特征点集合的特征数据的均方差;按照预设的统计周期或滑动窗口,计算每个所述统计周期或所述滑动窗口内的所述均方差的均值M0和均方差CRI;根据所述均值M0,得到当前的人像说话频率类型;根据所述人像说话频率类型和所述均方差CRI,确定当前的说话临界判断值。较佳地,所述人像说话频率类型包括:没有说话、少量说话和大量说话。较佳地,根据所述人像说话频率类型,确定当前的说话临界判断值包括:当所述人像说话频率类型为没有说话时,按照CRIreal=CRImax+preset,得到当前的说话临界判断值,其中,CRIreal为当前的说话临界判断值,CRImax为所述均方差CRI中的最大值;preset为预设的增值系数。较佳地,根据所述人像说话频率类型,确定当前的说话临界判断值包括:当所述人像说话频率类型为少量说话时,将所述均方差CRI,按照数值的升序进行排序,得到均方差队列;计算所述均方差队列中每对相邻均方差的差值,从最大的所述差值对应的两个均方差中,选择数值小的平均值MCRI作为当前的说话临界判断值。较佳地,根据所述人像说话频率类型,确定当前的说话临界判断值包括:当所述人像说话频率类型为大量说话时,计算所述均方差CRI的平均值MCRI;从所述均方差CRI中,查找出小于所述平均值MCRI且最接近所述平均值MCRI的均方差,并确定所查找出的均方差对应的帧号i;将所述视频帧序列的第1帧到第i帧之间的所述均方差CRI,按照数值的升序进行排序,得到均方差队列;计算所述均方差队列中每对相邻均方差的差值,从最大的所述差值对应的两个均方差中,选择数值小的平均值MCRI作为当前的说话临界判断值。较佳地,所述逐一对所述视频帧序列的后续帧中包含的相应人像的说话状态进行识别包括:如果所述视频帧序列之后的帧包含相应人像,则计算每帧对应的所述人脸口部特征点集合的特征数据的均方差,并按照所述统计周期或滑动窗口,在每个所述统计周期或所述滑动窗口,计算本统计周期或本滑动窗口内的所述均方差的均方差CRIk;如果所述CRIk大于当前的说话临界判断值,则判定所述人像在说话,否则判定所述人像未说话。较佳地,所述方法进一步包括:对于所述视频帧序列之后的每帧,逐帧检测当前是否存在满足说话识别条件的视频帧序列,当检测到所述视频帧序列时,根据该视频帧序列对应的特征数据,得到相应的说话临界判断值,利用所述说话临界判断值对当前的说话临界判断值进行更新。一种视频图像中人物说话的识别装置,包括:初始化单元,用于将待检测视频流的起始帧作为当前的检测帧;检测单元,用于从当前的检测帧开始,逐帧检测当前是否存在满足说话识别条件的视频帧序列;所述说话识别条件为连续N帧均包含预设的人脸口部特征点集合对应的特征数据,N≥1;临界确定单元,用于当检测到所述视频帧序列时,根据该视频帧序列对应的特征数据,确定当前的说话临界判断值;说话识别单元,用于利用所述说话临界判断值,逐一对所述视频帧序列的后续帧中包含的相应人像的说话状态进行识别,直至当前帧中不存在所述人像或者当前帧为所述视频流的最后一帧;遍历控制单元,用于如果当前帧中不存在所述人像且当前帧不是所述视频流的最后一帧,则将本帧作为当前的检测帧,触发检测单元执行。较佳地,所述临界确定单元,用于从当前的检测帧开始,逐帧检测当前帧是否包含人脸且包含了所述人脸口部特征点集合的特征数据,如果是,则记录人脸所在区域的编号,在后续帧中根据所述编号,进行相应的人脸检测,并在检测到连续N帧均包含所述人脸口部特征点集合的特征数据时,将该连续N帧确定为当前满足所述说话识别条件的视频帧序列。较佳地,所述临界确定单元,用于对于当前满足所述说话识别条件的视频帧序列的每一帧,计算该帧对应的所述人脸口部特征点集合的特征数据的均方差;按照预设的统计周期或滑动窗口,计算每个所述统计周期或所述滑动窗口内的所述均方差的均值M0和均方差CRI;根据所述均值M0,得到当前的人像说话频率类型;根据所述人像说话频率类型和所述均方差CRI,确定当前的说话临界判断值。较佳地,所述人像说话频率类型包括:没有说话、少量说话和大量说话。较佳地,所述临界确定单元,用于当所述人像说话频率类型为没有说话时,按照CRIreal=CRImax+preset,得到当前的说话临界判断值,其中,CR本文档来自技高网...

【技术保护点】
1.一种视频图像中人物说话的识别方法,其特征在于,包括:/na、将待检测视频流的起始帧作为当前的检测帧;/nb、从当前的检测帧开始,逐帧检测当前是否存在满足说话识别条件的视频帧序列;所述说话识别条件为连续N帧均包含预设的人脸口部特征点集合对应的特征数据,N≥1;/nc、当检测到所述视频帧序列时,根据该视频帧序列对应的特征数据,确定当前的说话临界判断值;/nd、利用所述说话临界判断值,逐一对所述视频帧序列的后续帧中包含的相应人像的说话状态进行识别,直至当前帧中不存在所述人像或者当前帧为所述视频流的最后一帧;/ne、如果当前帧中不存在所述人像且当前帧不是所述视频流的最后一帧,则将本帧作为当前的检测帧,返回步骤b。/n

【技术特征摘要】
1.一种视频图像中人物说话的识别方法,其特征在于,包括:
a、将待检测视频流的起始帧作为当前的检测帧;
b、从当前的检测帧开始,逐帧检测当前是否存在满足说话识别条件的视频帧序列;所述说话识别条件为连续N帧均包含预设的人脸口部特征点集合对应的特征数据,N≥1;
c、当检测到所述视频帧序列时,根据该视频帧序列对应的特征数据,确定当前的说话临界判断值;
d、利用所述说话临界判断值,逐一对所述视频帧序列的后续帧中包含的相应人像的说话状态进行识别,直至当前帧中不存在所述人像或者当前帧为所述视频流的最后一帧;
e、如果当前帧中不存在所述人像且当前帧不是所述视频流的最后一帧,则将本帧作为当前的检测帧,返回步骤b。


2.根据权利要求1所述的方法,其特征在于,所述逐帧判断当前是否存在满足说话识别条件的视频帧序列包括:
从当前的检测帧开始,逐帧检测当前帧是否包含人脸且包含了所述人脸口部特征点集合的特征数据,如果是,则记录人脸所在区域的编号,在后续帧中根据所述编号,进行相应的人脸检测,并在检测到连续N帧均包含所述人脸口部特征点集合的特征数据时,将该连续N帧确定为当前满足所述说话识别条件的视频帧序列。


3.根据权利要求1所述的方法,其特征在于,步骤c中所述确定当前的说话临界判断值包括:
对于当前满足所述说话识别条件的视频帧序列的每一帧,计算该帧对应的所述人脸口部特征点集合的特征数据的均方差;
按照预设的统计周期或滑动窗口,计算每个所述统计周期或所述滑动窗口内的所述均方差的均值M0和均方差CRI;
根据所述均值M0,得到当前的人像说话频率类型;
根据所述人像说话频率类型和所述均方差CRI,确定当前的说话临界判断值。


4.根据权利要求3所述的方法,其特征在于,所述人像说话频率类型包括:没有说话、少量说话和大量说话。


5.根据权利要求4所述的方法,其特征在于,根据所述人像说话频率类型,确定当前的说话临界判断值包括:
当所述人像说话频率类型为没有说话时,按照CRIreal=CRImax+preset,得到当前的说话临界判断值,其中,CRIreal为当前的说话临界判断值,CRImax为所述均方差CRI中的最大值;preset为预设的增值系数。


6.根据权利要求4所述的方法,其特征在于,根据所述人像说话频率类型,确定当前的说话临界判断值包括:
当所述人像说话频率类型为少量说话时,将所述均方差CRI,按照数值的升序进行排序,得到均方差队列;
计算所述均方差队列中每对相邻均方差的差值,从最大的所述差值对应的两个均方差中,选择数值小的平均值MCRI作为当前的说话临界判断值。


7.根据权利要求4所述的方法,其特征在于,根据所述人像说话频率类型,确定当前的说话临界判断值包括:
当所述人像说话频率类型为大量说话时,计算所述均方差CRI的平均值MCRI;
从所述均方差CRI中,查找出小于所述平均值MCRI且最接近所述平均值MCRI的均方差,并确定所查找出的均方差对应的帧号i;
将所述视频帧序列的第1帧到第i帧之间的所述均方差CRI,按照数值的升序进行排序,得到均方差队列;
计算所述均方差队列中每对相邻均方差的差值,从最大的所述差值对应的两个均方差中,选择数值小的平均值MCRI作为当前的说话临界判断值。


8.根据权利要求3所述的方法,其特征在于,所述逐一对所述视频帧序列的后续帧中包含的相应人像的说话状态进行识别包括:
如果所述视频帧序列之后的帧包含相应人像,则计算每帧对应的所述人脸口部特征点集合的特征数据的均方差,并按照所述统计周期或滑动窗口,在每个所述统计周期或所述滑动窗口,计算本统计周期或本滑动窗口内的所述均方差的均方差CRIk;
如果所述CRIk大于当前的说话临界判断值,则判定所述人像在说话,否则判定所述人像未说话。


9.根据权利要求8所述的方法,其特征在于,所述方法进一步包括:
对于所述视频帧序列之后的每帧,逐帧检测当前是否存在满足说话识别条件的视频帧序列,当检测到所述视频帧序列时,根据该视频帧序列对应的特征数据,得到相应的说话临界判断值,利用所述说话临界判断值对当前的说话临界判断值进行更新。


10.一种视频图像中人物说话的识别装置,其特征在于,包括:

【专利技术属性】
技术研发人员:杨韵丞侯国梁
申请(专利权)人:普天信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1