System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 音视频媒体流的音视频同步检测方法及计算机可读存储介质技术_技高网

音视频媒体流的音视频同步检测方法及计算机可读存储介质技术

技术编号:40001381 阅读:8 留言:0更新日期:2024-01-09 03:42
本发明专利技术涉及一种音视频媒体流的音视频同步检测方法及一种计算机可读存储介质,其中音视频同步检测方法其特征在于包括如下步骤:步骤1、预先设定一个时间为t的分段周期,按照时间先后顺序依次不间断地从待测音视频媒体流中截取时间为t的视频分段;步骤2、针对所有的视频分段,按照时间先后顺序分别获取“唇音同步”检测结果和“文本内容同步”检测结果;步骤4、根据“唇音同步”检测结果和“文本内容同步”检测结果,对待测音视频媒体流中的视频分段或视频块中的音视频是否同步进行汇总,从而得到待测音视频媒体流的综合同步结果。本发明专利技术提供的方法能低成本高效率的对任意双录输出的音视频媒体流进行处理。

【技术实现步骤摘要】

本专利技术涉及一种音视频同步检测方法,特别是涉及一种音视频媒体流的音视频同步检测方法及计算机可读存储介质


技术介绍

1、早期的多媒体流音视频同步检测技术主要依赖对媒体的事先标定,而后做媒体同步检查,标定的方法包括特定内容(如1、2、3计数)、增加水印、增加二路参考媒体等等,然而依赖各种标定的检测方法,实际应用有限制,无法普及。近期由于深度学习算法能力快速发展,也出现了syncnet等基于识别的方法,将视频中的语音片段输入一个神经网络,得到语音特征;再将视频中的图像片段输入另一个神经网络,得到视觉特征;最后,通过对比语音特征与视觉特征,进而判断视频中人物的嘴部运动与其所发出的语音是否同步。但是基于人脸、口型和语音的同步检测方法,均需要事先假定视频中出现的人为讲话人,条件设定太强,无法处理视频内容中无讲话人的场景,且深度学习推理计算量很大,无法以低成本的方式应用推广。在视频双录场景中,由于相关规范需要严格确保录制的音视频媒体流音视频同步,就需要一个工程上可行的方法实现对录像文件进行音视频内容检查,并且要在计算成本可接受的前提下。因此,现有技术有待于进一步改进。


技术实现思路

1、本专利技术所要解决的技术问题是针对上述现有技术提供一种针对上述现有技术提供一种低成本高效率能对任意双录输出的音视频媒体流进行处理的音视频媒体流的音视频同步检测方法。

2、本专利技术解决上述技术问题所采用的技术方案为:一种音视频媒体流的音视频同步检测方法,其特征在于包括如下步骤:

3、步骤1、预先设定一个时间为t的分段周期,t的取值范围为0.5秒~2秒,按照时间先后顺序依次不间断地从待测音视频媒体流中截取时间为t的视频分段;

4、步骤2、针对所有的视频分段,按照时间先后顺序执行步骤2-1~步骤2-2,在执行步骤2-1~步骤2-2的过程中,同步执行步骤3-1~步骤3-5:

5、步骤2-1、从某一视频分段中抽取一帧视频进行人脸识别,如果该视频帧中识别出人脸,然后搜索该视频分段中其他视频帧,使用人脸关键点提取算法提取其他视频帧内人脸中口型部分的关键点,检测该视频分段内人脸口型变化情况,然后基于该视频分段内人脸口型变化情况,进行运动模式分析,进而判断当前时间段内是否有人讲话,再然后对出现人脸的时间段进行语音活动检测,判断该视频分段内是否存在人类语音;

6、步骤2-2、根据该视频分段内人脸口型变化情况以及语音活动检测结果,进行唇音同步相关性判断,并输出对应视频分段的判决结果,判决结果分为如下三种:

7、第一种、当该视频分段中人脸口型不动但有人类语音,或者没有检测到人脸,输出该视频分段中音视频是否同步的结果为未知,记为l0;

8、第二种、当该视频分段中人脸口型动且有人类语音,或者人脸口型不动且有无人类语音,输出该视频分段中音视频同步,记为l1;

9、第三种、当该视频分段中人脸口型动但无人类语音,输出该视频分段中音视频不同步,记为l2;

10、步骤3-1、从某一视频分段中抽取一帧视频,使用ocr字符识别技术对该视频帧进行识别,若该视频帧中未检测到文字,当跳过该视频分段;如果该视频帧中识别出文本字符串信息,则提取该视频帧中的文本字符串信息,并将该文本作为该视频分段的文本;

11、步骤3-2、根据步骤3-1的结果,将所有视频分段的文本进行聚合,并根据聚合结果并将待测音视频媒体流按时间切分为若干包括文本的视频块和不包含文本的视频块,将包括文本的视频块记为v[i],i为自然数,指代包含文本的视频块的编号;

12、步骤3-3、按照时间先后顺序,对v[i]使用asr语音识别技术提取该视频块的语音文本信息,将得到的结果记为asr_text[i],i为当前包括文本的视频块的编号;

13、步骤3-4、按照时间先后顺序,对每个v[i]使用ocr字符识别技术提取该视频块的文本字符串信息,将得到的结果记为ocr_text[i],i为当前包括文本的视频块的编号;

14、步骤3-5、按照时间先后顺序,针对v[i],如果当前块的asr_text[i]或ocr_text[i]没有内容,则输出该视频块中音视频是否同步的结果为未知,记为a0;如果asr_text[i]和ocr_text[i]均有内容,则对asr_text[i]和ocr_text[i]进行模糊查找及相似度评估,得到两者的相似度值similar_asr_ocr[i],如果相似度值similar_asr_ocr[i]大于等于第一阈值小于等于第二阈值,输出该视频块中音视频是否同步的结构为未知,记为a0;如果相似度值similar_asr_ocr[i]大于第二阈值,则输出该视频块中音视频同步,记为a1;如果相似度值similar_asr_ocr[i]小于第一阈值,则输出该视频块中音视频不同步,记为a2;其中第一阈值取值范围为0.2~0.4,第二阈值的取值范围为0.7~0.9;

15、步骤4、根据步骤2-2的结果和步骤3-5的结果,按照时间先后顺序,对待测音视频媒体流中的视频分段或视频块中的音视频是否同步进行汇总,从而得到待测音视频媒体流的综合同步结果:

16、当某一视频分段或某一视频块中,步骤2-2输出的结果为l0,且步骤3-5输出的结果为a0,则输出该视频分段或视频块中音视频是否同步的结果为未知;

17、当某一视频分段或某一视频块中,步骤2-2输出的结果为l0,且步骤3-5输出的结果为a0,则输出该视频分段或视频块中音视频是否同步的结果为未知;

18、当某一视频分段或某一视频块中,步骤2-2输出的结果为l1,且步骤3-5输出的结果为a2,则输出该视频分段或视频块中音视频是否同步的结果为未知;

19、当某一视频分段或某一视频块中,步骤2-2输出的结果为l2,且步骤3-5输出的结果为a1,则输出该视频分段或视频块中音视频是否同步的结果为未知;

20、当某一视频分段或某一视频块中,步骤2-2输出的结果为l1,且步骤3-5输出的结果为a1,则输出该视频分段或视频块中音视频同步;

21、当某一视频分段或某一视频块中,步骤2-2输出的结果为l1,且步骤3-5输出的结果为a0,则输出该视频分段或视频块中音视频同步;

22、当某一视频分段或某一视频块中,步骤2-2输出的结果为l0,且步骤3-5输出的结果为a1,则输出该视频分段或视频块中音视频同步;

23、当某一视频分段或某一视频块中,步骤2-2输出的结果为l2,且步骤3-5输出的结果为a2,则输出该视频分段或视频块中音视频不同步;

24、当某一视频分段或某一视频块中,步骤2-2输出的结果为l0,且步骤3-5输出的结果为a2,则输出该视频分段或视频块中音视频不同步;

25、当某一视频分段或某一视频块中,步骤2-2输出的结果为l2,且步骤3-5输出的结果为a0,则输出该视频分段或视频块中音视频不同步。

26、作为改本文档来自技高网...

【技术保护点】

1.一种音视频媒体流的音视频同步检测方法,其特征在于包括如下步骤:

2.根据权利要求1所述的音视频媒体流的音视频同步检测方法,其特征在于:所述步骤2-1中,根据视频分段内人脸口型变化情况进行运动模式分析的具体逻辑包括:

3.一种计算机可读存储介质,存储有计算机程序,且能被处理器读取并执行,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至2中任一项所述的音视频媒体流的音视频同步检测方法。

【技术特征摘要】

1.一种音视频媒体流的音视频同步检测方法,其特征在于包括如下步骤:

2.根据权利要求1所述的音视频媒体流的音视频同步检测方法,其特征在于:所述步骤2-1中,根据视频分段内人脸口型变化情况进行运动模式分...

【专利技术属性】
技术研发人员:钱晓炯吕锐刘谦
申请(专利权)人:宁波菊风系统软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1