一种基于特征的视音频检索方法技术

技术编号:36016206 阅读:14 留言:0更新日期:2022-12-21 10:07
本申请涉及音视频检索技术领域,提供一种基于特征的视音频检索方法,通过预先建立图像素材库以及预先建立音频素材库,对待检测样本进行索引,例如,可针对广播电视节目广告播出进行精准的监控统计,广播电视播出广告具有不变性特点,基于该方法提取各电视频道的特征构建素材特征库,然后基于广告样本特征检索,统计广告播出情况。基于特征的毫秒级特点,可对广告进行精准定位及查看。通过构建的素材特征库,可重复对不同待检测样本进行检索。基于时间连续性判断输出检索结果。特征ID根据节目ID和特征时间生成,可快速对检索的媒资进行分组,可精确到毫秒级的精准定位,精确匹配节目中素材出现的位置,且可对素材进行反复追溯检索。索。索。

【技术实现步骤摘要】
一种基于特征的视音频检索方法


[0001]本申请涉及音视频检索
,尤其涉及一种具体基于特征的视音频检索方法。

技术介绍

[0002]随着现代计算机及互联网技术的发展,多媒体数据的种类越来越丰富,规模也越来越大,这使得多媒体检索技术编的越来越重要,例如,广告投放方需要监控投放的广告是否按约定播出,又例如,影视出品方需要确定作品的播放情况。
[0003]目前现有的视音频检索方案常见的是基于单维度的检索。例如,先将语音转换为文字,然后基于文字做检索,只提取的音频特征,未关联图像特征检索,且将语音先转换为文字这种识别技术,耗费大量的算力且无法精确到毫秒级的匹配,在背景音嘈杂时检索结果不理想。而单纯的图像检索,由于大量不同的视音频会采用相同或者相近的图像,导致采用图像检索方式,获得的检索结果存在较大的误差,不利于视音频的高效精确检索。

技术实现思路

[0004]为了提供一种高效精确的视音频检索方法,本申请实施例提供一种基于特征的视音频检索方法。
[0005]本申请第一方面提供一种基于特征的视音频检索方法,包括:
[0006]取待检测样本的图像特征点,以及待检测样本的音频特征点;
[0007]利用待检测样本图像特征点对预先建立的图像素材库进行筛选,若图像素材库的素材图像特征点与待检测样本图像特征点内积距离处于预设区间内,则提取出对应的素材图像特征点,并以所有提取的素材图像特征点建立第一特征集合;以及,利用待检测样本音频特征点对预先建立的音频素材库进行筛选,若音频素材库的素材音频特征点与待检测样本音频特征点内积距离处于预设区间内,则提取出对应的素材音频特征点,并以所有提取的素材音频特征点建立第二特征集合;
[0008]对第一特征集合的素材图像特征点按照节目ID进行分组,同一ID分组的素材图像特征点按照时间戳进行排序,获得多组素材图像特征序列集合;以及,对第二特征集合的素材音频特征点按照节目ID进行分组,同一ID分组的音频特征点按照时间戳进行排序,获得多组素材音频特征序列集合;
[0009]在素材图像特征序列集合下,对同一ID分组的素材图像特征序列中的素材图像特征点进行时间性聚类,获得多个同类图像簇;以及,在素材音频特征序列集合下,对同一ID分组的素材音频特征序列中的素材音频特征点进行时间性聚类,获得多个同类音频簇;
[0010]分别对同类图像簇中的素材图像特征点和同类音频簇中的素材音频特征点进行连续性验证,确定同类图像簇中素材图像特征序列的起始及结束时间,获得连续素材图像特征序列集合;以及,确定同类音频簇中素材音频特征序列的起始及结束时间,获得连续素材音频特征序列集合;
[0011]根据节目ID,对连续素材图像特征序列集合与连续素材音频特征序列集合,求并集或子集。
[0012]可选地,所述获取待检测样本的图像特征点,以及待检测样本的音频特征点的步骤,具体为:
[0013]获取待检测样本的音视频;
[0014]提取的所述待检测样本的音视频的样本图像序列和样本音频序列;
[0015]对所述样本图像序列4进行特征提取的,生成待检测样本的图像特征点,所述待检测样本的图像特征点包括节目ID信息、时间信息和指纹信息;
[0016]对所述样本音频序列基于频谱峰值进行特征提取的,生成待检测样本的音频特征点,所述待检测样本的音频特征点包括节目ID信息、时间信息和声纹信息。
[0017]可选地,所述在素材图像特征序列集合下,对同一ID分组的素材图像特征序列中的素材图像特征点进行时间性聚类,获得多个同类图像簇的步骤,具体为:
[0018]获取素材图像特征点的unix时间戳信息,若连续的素材图像特征点之间的时间戳满足以下公式,则将连续的素材图像特征点归类一个同类图像簇;
[0019]t
n2

t
n1
<10*IA
[0020]或者t
n2

t
n1
>=10*IA且|(t
AFn2

>SAF

t
AFn1

>SAF
)

(t
n2

t
n1
)|<3*IA;
[0021]其中,t
n2
和t
n1
为两个连续的素材图像特征点的unix时间戳信息,IA为预设的隔帧提取的间隔时间;t
AFn2

>SAF
和t
AFn1

>SAF
为两个连续的素材图像特征点对应的待检测样本图像特征点的unix时间戳信息。
[0022]可选地,所述视音频检索方法还包括:
[0023]若所述同类图像簇中只有一个素材图像特征点,则去除该同类图像簇;
[0024]计算任一同类图像簇的持续时间,若所述持续时间小于预设时长,则去除该同类图像簇。
[0025]可选地,所述在素材音频特征序列集合下,对同一ID分组的素材音频特征序列中的素材音频特征点进行时间性聚类,获得多个同类音频簇的步骤,具体为:
[0026]获取素材音频特征点的unix时间戳信息,若连续的音频特征点之间的时间戳满足以下公式,则将连续的素材音频特征点归类一个同类音频簇;
[0027]T
n2

T
n1
<10*IP
[0028]或者T
n2

T
n1
>=10*IP且|(T
AFn2

>SAF

T
AFn1

>SAF
)

(T
n2

T
n1
)|<3*IP;
[0029]其中,T
n2
和T
n1
为两个连续的素材音频特征点的unix时间戳信息,IP为预设的隔帧提取的间隔时间;T
AFn2

>SAF
和T
AFn1

>SAF
为两个连续的素材音频特征点对应的待检测样本音频特征点的unix时间戳信息。
[0030]可选地,所述视音频检索方法还包括:
[0031]若所述同类音频簇中只有一个素材音频特征点,则去除该同类音频簇;
[0032]计算任一同类音频簇的持续时间,若所述持续时间小于预设时长,则去除该同类音频簇。
[0033]可选地,所述预先建立的图像素材库和预先建立的音频素材库通过以下方法建立:
[0034]获取音视频素材,并按本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征的视音频检索方法,其特征在于,包括:获取待检测样本的图像特征点,以及待检测样本的音频特征点;利用待检测样本图像特征点对预先建立的图像素材库进行筛选,若图像素材库的素材图像特征点与待检测样本图像特征点内积距离处于预设区间内,则提取出对应的素材图像特征点,并以所有提取的素材图像特征点建立第一特征集合;以及,利用待检测样本音频特征点对预先建立的音频素材库进行筛选,若音频素材库的素材音频特征点与待检测样本音频特征点内积距离处于预设区间内,则提取出对应的素材音频特征点,并以所有提取的素材音频特征点建立第二特征集合;对第一特征集合的素材图像特征点按照节目ID进行分组,同一ID分组的素材图像特征点按照时间戳进行排序,获得一组素材图像特征序列,并将多组素材图像特征序列组合为素材图像特征序列集合;以及,对第二特征集合的素材音频特征点按照节目ID进行分组,同一ID分组的音频特征点按照时间戳进行排序,获得一组素材音频特征序列,并将多组素材音频特征序列组合为素材音频特征序列集合;在素材图像特征序列集合下,对同一ID分组的素材图像特征序列中的素材图像特征点进行时间性聚类,获得多个同类图像簇;以及,在素材音频特征序列集合下,对同一ID分组的素材音频特征序列中的素材音频特征点进行时间性聚类,获得多个同类音频簇;分别对同类图像簇中的素材图像特征点和同类音频簇中的素材音频特征点进行连续性验证,确定同类图像簇中素材图像特征序列的起始及结束时间,获得连续素材图像特征序列集合;以及,确定同类音频簇中素材音频特征序列的起始及结束时间,获得连续素材音频特征序列集合;根据节目ID,对连续素材图像特征序列集合与连续素材音频特征序列集合,求并集或子集。2.根据权利要求1所述的一种基于特征的视音频检索方法,其特征在于,所述获取待检测样本的图像特征点,以及待检测样本的音频特征点的步骤,具体为:获取待检测样本的音视频;提取的所述待检测样本的音视频的样本图像序列和样本音频序列;对所述样本图像序列进行特征提取的,生成待检测样本的图像特征点,所述待检测样本的图像特征点包括节目ID信息、时间信息和指纹信息;对所述样本音频序列基于频谱峰值进行特征提取的,生成待检测样本的音频特征点,所述待检测样本的音频特征点包括节目ID信息、时间信息和声纹信息。3.根据权利要求1所述的一种基于特征的视音频检索方法,其特征在于,所述在素材图像特征序列集合下,对同一ID分组的素材图像特征序列中的素材图像特征点进行时间性聚类,获得多个同类图像簇的步骤,具体为:获取素材图像特征点的unix时间戳信息,若连续的素材图像特征点之间的时间戳满足以下公式,则将连续的素材图像特征点归类一个同类图像簇;t
n2

t
n1
<10*IA或者t
n2

t
n1
>=10*IA且|(t
AFn2

>SAF

t
AFn1

>SAF
)

(t
n2

t
n1
)|<3*IA;其中,t
n2
和t
n1
为两个连续的素材图像特征点的unix时间戳信息,IA为预设的隔帧提取的间隔时间;t
AFn2

>SAF
和t
AFn1

>SAF
为两个连续的素材图像特征点对应的待检测样本图像特征
点的unix时间戳信息。4.根据权利要求3所述的一种基于特征的视音频检索方法,其特征在于,所述视音频检索方法还包括:若所述同类图像簇中只有一个素材图像特征点,则去除该同类图像簇;计算任一同类图像簇的持续时间,若所述持续时间小于预设时长,则去除该同类图像簇。5.根据权利要求1所述的一种基于特征的视音频检索方法,其特征在于,所述在素材音频特征序列集合下,对同一ID分组的素材音频特征序列中的素材音频特征点进行时间性聚类,获得多个同类音频簇簇的步骤,具体为:获取素材音频特征点的unix时间戳信息,若连续的音频特征点之间的时间戳满足以下公式,则将连续的素材音频特征点归类一个同类音频簇;T
n2

【专利技术属性】
技术研发人员:郑严殷松迁郭忠武李国华刘宇航闫晨博韩煜
申请(专利权)人:北京市博汇科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1