当前位置: 首页 > 专利查询>中南大学专利>正文

一种云存储环境下基于音频字的盗版视频检测方法与系统技术方案

技术编号:18765507 阅读:30 留言:0更新日期:2018-08-25 11:27
本发明专利技术公开了一种云存储环境下基于音频字的盗版检测方法和系统,通过多维聚类构建的音频字典,对版权资源分割后的短时音频段进行特征提取,音频段转换为可以表征音频内容的音频字序列后,建立倒排索引。检索时,将用户提交的查询转换为音频字后直接定位候选段落,并根据候选段落与查询的内容相似度与阈值的关系确定视频是否为盗版。充分利用了音频特征在传统音视频媒体文件中的稳定性,以及静默片段等特征,检测结果高效而准确,以极低的本地计算成本和较少的网络带宽,较容易的为正版资源提供了一种版权鉴定保护方案。

【技术实现步骤摘要】
一种云存储环境下基于音频字的盗版视频检测方法与系统
本专利技术属于版权检测领域,特别涉及一种云存储环境下基于音频字的盗版视频检测方法与系统。
技术介绍
云计算时代,当云存储和各类UGC(UserGeneratedContent)视频网站服务商的兴起,多媒体信息呈现爆炸式增长。数字音视频具有传播速度快、覆盖范围广、盗版成本低等特点,这都对数字版权形成了巨大的挑战。我们常常可以看到,一部影片,在不同视频网站的版本各不相同,甚至在同一网站,能搜索到一部影片的多个版本,通过而这些所谓的“山寨”版本,大多是由个人或团体从各种渠道获得的正版或盗版片源,经过翻录等手段获得盗版的视频副本,再使用私人账号将其上传到视频网站而来。这些盗版视频,严重地侵犯了视频制作方和发行方的合法权利与利益,对多媒体产业的发展以及社会价值取向的形成具有不良影响。面对这种情况,目前主流网站多在用户上传视频后、视频发布前,预先通过机器检测或人工审核等方式对视频内容进行预先审核,在视频发布后接受用户举报,查实后删除违规视频并视情节对账号进行封号处理。网站平台的数据流量大且时效性高,目前的机器检测大多采用图像识别技术,这项技术漏判、误判的情况时有发生。而且对海量视频帧进行画面识别导致处理效率相对低下,如果发布者通过降低清晰度、加快或放慢视频播放速度等方式,对图像识别进行干扰,进一步降低图像识别的准确度。人工审核的准确度很高,但耗费的审核时间相当长。举报封删的方法是建立在观众举报的基础之上的,观众可能出于各种原因并不举报违规视频,同时审核举报信息也会耗费一定时间。举报封删是一种事后补救措施,即便删除违规视频能阻止进一步扩散,但其已造成的负面影响是难以消除的。由于目前盗版检测的方式还存在上诉缺点,因此有必要设计一种新的云存储环境下的盗版检测方案,能够满足以下要求:(i)准确性。不仅可以检测出翻录的视频,对经过噪声和变速处理的视频也应该起到较为准确的检测作用。(ii)低成本。更少的数据存储空间和I/O开销。(iii)实时性。检测速度应该满足网站的高实时性要求。
技术实现思路
本专利技术提供了一种云存储环境下基于音频字的盗版视频检测方法与系统,其目的在于,克服现有技术中盗版资源人工审核周期长或图像识别准确度较低的问题。一种云存储环境下基于音频字的盗版视频检测方法,包括以下步骤:步骤1:提取音效,并进行音频字标记;提取各种视频中的音轨,从音轨中提取各种常见音效,对所提取的不同音效依次进行标号,获得每种音效的音频字;步骤2:提取各音频帧超向量;先提取每帧音频的多维特征,并对多维特征分别进行归一化处理,构建音频帧的超向量;所述每帧音频的多维特征包括宏观声学特征、时域特征、频域特征以及倒谱特征,所述音效超向量是指对音频多维特征分别进行归一化处理后得到的特征形成的一维向量;其中,宏观声学特征包括音调、音高、带宽,时域特征包括短时能量、短时平均幅度、短时平均过零率、短时自相关系数,频域特征包括谱能量、子带能量比、谱质心、谱带宽、谱密度,倒谱特征包括Delta倒谱系数、LPC倒谱系数、梅尔倒谱系数;步骤3:构建音频字典;依次对每一种音效收集100个样本,提取每个样本中所有音频帧的超向量均值,将每一种音效的所有样本的超向量均值使用k-均值聚类算法聚成3个类,每一个聚类中心作为一个新的音频字wi,每一个新的音频字均进行唯一标记wi,利用新的音频字生成音频字典为W={w1,w2,…,wk},k=1200;步骤4:音频分割:采用3阶段的自顶向下多层分割方法,将步骤1中提取出的音轨Di依据声学特征分割成音频片段;音频片段中的声学特征变化程度较小;步骤5:音频字转换;计算每个音频片段中所有帧音频的超向量均值,并依据音频字典中的音频字对每个音频片段标记,得到每一个音轨对应的音频字序列1≤j≤Ni,表示第i个音轨中的第j个音频片段对应的音频字;Ni表示第i个音轨中包含的音频片段总数;步骤6:构建音频字在音轨中的时刻位置索引表;对所有上传的正版视频资源依次进行音轨提取、音频帧超向量提取、音频分割以及音频字转换,并将所有正版视频资源中音频字出现在音轨中的时刻位置进行记录,获得各正版视频中所有音频字出现在各音轨中的时刻位置倒排索引表;倒排文件记录的是音频字出现在第几个音轨的第几个位置上,使用倒排索引可以加速检索速度。步骤7:音频检索;将上传的待检测的视频进行音轨提取、音频帧超向量提取、音频分割以及音频字转换得到对应的音频字序列,将待检测视频的音频字序列中包含的音频字按照顺序与所述时刻位置索引表中音频字进行匹配,若待检测的音频字序列中存在至少N个连续的音频字与某一正版视频中连续的音频字一一匹配,则选取对应正版视频中连续匹配的音频字的起始位置所在的候选音频段落C,计算各正版视频候选段落C与待检测视频的音频字序列的匹配度,若匹配度超过设定的匹配度阈值,则判定当前待检测的视频属于对应正版视频的盗版资源;所述匹配度是指音频字的出现时间的吻合程度。进一步地,所述归一化处理是指进行规整向量计算;规整向量f′d计算公式为:其中,D为特征总维数,fd为原始特征,μd和σd分别为同一类音效特征的均值和标准差;通过该公式将各维特征规整到均值为0,方差为1的分布中。进一步地,所述采用3阶段的自顶向下多层分割方法,将步骤1中提取出的音轨Di依据声学特征分割成音频片段的具体过程如下:第1阶段:静音分割;以静音作为分割点对音轨进行粗略分割,得到各粗音频段;其中,所述静音的短时帧能量至少连续2s均小于能量门限Eth;其中,Emax、Emin和Emean分别代表当前音轨文档中短时帧能量的最大值、最小值和均值,λs为静音因子,λs∈[0,1];Erange表示能量的浮动范围,能量门限应当在Emin和Emin+Erange之间;第2阶段:距离分割;距离分割将经过静音分割后得到的各粗音频段,依据Hotelling’sT2距离再分割成无明显音频波动的音频片段;利用逐渐增长的第一分析窗依次对各粗音频段进行扫描,并在分析窗中每隔0.2s设置一个测试点,若第一分析窗内部测试点左右两边数据窗之间的Hotelling’sT2距离超过预设第一门限时,对应的测试点所在位置当作音频类型改变点,以音频类型改变点对粗音频段进行分割;第一分析窗初始长度为3s,如果窗内未发现音频类型改变点,则第一分析窗窗长增加1s,再次对粗音频段进行扫描;如果第一分析窗内找到音频类型改变点,则将第一分析窗长度重置为初始长度,并以得到的新的音频类型改变点作为起点继续搜索下一音频类型改变点直至搜索至粗音频段尾端;第3阶段:声学特征分割;根据音频特征的均值和方差,对无明显音频波动的音频片段进行分割;利用第二分析窗对各无明显音频波动的音频片段进行扫描,以第二分析窗的中点对第二分析窗内的音频片段进行分割得到左侧数据窗和右侧数据窗,计算中点左右两侧数据窗内音频片段中每一帧音频的超向量均值之间的欧氏距离dis(μ1,μ2)和方差,其中,μ1和μ2分别是第二分析窗的中点左右两侧数据窗内音频片段中每一帧音频的超向量均值:当欧式距离或者方差超过预设第二门限时,认为第二分析窗内部存在较大的数据变化,则当前中点为音效改变点,以音效改变点对对应的无明显音频波动的音频片段进行分割;否则,将左侧数本文档来自技高网
...

【技术保护点】
1.一种云存储环境下基于音频字的盗版视频检测方法,其特征在于,包括以下步骤:步骤1:提取音效,并进行音频字标记;提取各种视频中的音轨,从音轨中提取各种常见音效,对所提取的不同音效依次进行标号,获得每种音效的音频字;步骤2:提取各音频帧超向量;先提取每帧音频的多维特征,并对多维特征分别进行归一化处理,构建音频帧的超向量;所述每帧音频的多维特征包括宏观声学特征、时域特征、频域特征以及倒谱特征,所述音效超向量是指对音频多维特征分别进行归一化处理后得到的特征形成的一维向量;其中,宏观声学特征包括音调、音高、带宽,时域特征包括短时能量、短时平均幅度、短时平均过零率、短时自相关系数,频域特征包括谱能量、子带能量比、谱质心、谱带宽、谱密度,倒谱特征包括Delta倒谱系数、LPC倒谱系数、梅尔倒谱系数;步骤3:构建音频字典;依次对每一种音效收集100个样本,提取每个样本中所有音频帧的超向量均值,将每一种音效的所有样本的超向量均值使用k‑均值聚类算法聚成3个类,每一个聚类中心作为一个新的音频字wi,每一个新的音频字均进行唯一标记wi,利用新的音频字生成音频字典为W={w1,w2,…,wk},k=1200;步骤4:音频分割:采用3阶段的自顶向下多层分割方法,将步骤1中提取出的音轨Di依据声学特征分割成音频片段;步骤5:音频字转换;计算每个音频片段中所有帧音频的超向量均值,并依据音频字典中的音频字对每个音频片段标记,得到每一个音轨对应的音频字序列...

【技术特征摘要】
1.一种云存储环境下基于音频字的盗版视频检测方法,其特征在于,包括以下步骤:步骤1:提取音效,并进行音频字标记;提取各种视频中的音轨,从音轨中提取各种常见音效,对所提取的不同音效依次进行标号,获得每种音效的音频字;步骤2:提取各音频帧超向量;先提取每帧音频的多维特征,并对多维特征分别进行归一化处理,构建音频帧的超向量;所述每帧音频的多维特征包括宏观声学特征、时域特征、频域特征以及倒谱特征,所述音效超向量是指对音频多维特征分别进行归一化处理后得到的特征形成的一维向量;其中,宏观声学特征包括音调、音高、带宽,时域特征包括短时能量、短时平均幅度、短时平均过零率、短时自相关系数,频域特征包括谱能量、子带能量比、谱质心、谱带宽、谱密度,倒谱特征包括Delta倒谱系数、LPC倒谱系数、梅尔倒谱系数;步骤3:构建音频字典;依次对每一种音效收集100个样本,提取每个样本中所有音频帧的超向量均值,将每一种音效的所有样本的超向量均值使用k-均值聚类算法聚成3个类,每一个聚类中心作为一个新的音频字wi,每一个新的音频字均进行唯一标记wi,利用新的音频字生成音频字典为W={w1,w2,…,wk},k=1200;步骤4:音频分割:采用3阶段的自顶向下多层分割方法,将步骤1中提取出的音轨Di依据声学特征分割成音频片段;步骤5:音频字转换;计算每个音频片段中所有帧音频的超向量均值,并依据音频字典中的音频字对每个音频片段标记,得到每一个音轨对应的音频字序列表示第i个音轨中的第j个音频片段对应的音频字;Ni表示第i个音轨中包含的音频片段总数;步骤6:构建音频字在音轨中的时刻位置索引表;对所有上传的正版视频资源依次进行音轨提取、音频帧超向量提取、音频分割以及音频字转换,并将所有正版视频资源中音频字出现在音轨中的时刻位置进行记录,获得各正版视频中所有音频字出现在各音轨中的时刻位置倒排索引表;步骤7:音频检索;将上传的待检测的视频进行音轨提取、音频帧超向量提取、音频分割以及音频字转换得到对应的音频字序列,将待检测视频的音频字序列中包含的音频字按照顺序与所述时刻位置索引表中音频字进行匹配,若待检测的音频字序列中存在至少N个连续的音频字与某一正版视频中连续的音频字一一匹配,则选取对应正版视频中连续匹配的音频字的起始位置所在的候选音频段落C,计算各正版视频候选段落C与待检测视频的音频字序列的匹配度,若匹配度超过设定的匹配度阈值,则判定当前待检测的视频属于对应正版视频的盗版资源;所述匹配度是指音频字的出现时间的吻合程度。2.根据权利要求1所述的方法,其特征在于,所述归一化处理是指进行规整向量计算;规整向量f′d计算公式为:其中,D为特征总维数,fd为原始特征,μd和σd分别为同一类音效特征的均值和标准差;通过该公式将各维特征规整到均值为0,方差为1的分布中。3.根据权利要求1所述的方法,其特征在于,所述采用3阶段的自顶向下多层分割方法,将步骤1中提取出的音轨Di依据声学特征分割成音频片段的具体过程如下:第1阶段:静音分割;以静音作为分割点对音轨进行粗略分割,得到各粗音频段;其中,所述静音的短时帧能量至少连续2s均小于能量门限Eth;其中,Emax、Emin和Emean分别代表当前音轨文档中短时帧能量的最大值、最小值和均值,λs为静音因子,λs∈[0,1];第2阶段:距离分割;距离分割将经过静音分割后得到的各粗音频段,依据Hotelling’sT2距离再分割成无明显音频波动的音频片段;利用逐渐增长的第一分析窗依次对各粗音频段进行扫描,并在分析窗中每隔0.2s设置一个测试点,若第一分析窗内部测试点左右两边数据窗之间的Hotelling’sT2距离超过预设第一门限时,对应的测试点所在位置当作音频类型改变点,以音频类型改变点对粗音频段进行分割;第一分析窗初始长度为3s,如果窗内未发现音频类型改变点,则第一分析窗窗长增加1s,再次对粗音频段进行扫描;如果第一分析窗内找到音频类型改变点,则将第一分析窗长度重置为初始长度,并以得到的新的音频类型改变点作为起点继续搜索下一音频类型改变点直至搜索至粗音频段尾端;第3阶段:声学特征分割;根据音频特征的均值和方差,对无明显音频波动的音频片段进行分割;利用第二分析窗对各无明显音频...

【专利技术属性】
技术研发人员:段桂华滕明英王琰张振宇
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1