当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于多源信息融合分析的网络视频热点事件发现方法技术

技术编号:13383473 阅读:34 留言:0更新日期:2016-07-21 18:26
一种基于多源信息融合分析的网络视频热点事件发现方法。包括:1)采集有多源信息的网络视频;2)将网络视频的多源信息结构化为描述性关键字标签;3)根据步骤2)得到的网络视频语义结构化关键字标签与用户定义的敏感词字典的匹配度,得到网络视频的主观敏感度参数;4)根据网络视频中多源信息的点击率、时间字段,得到网络视频的客观热度参数;5)根据步骤3)得到的主观敏感度参数,建立网络视频敏感度预测模型,预测新网络视频的主观敏感度;6)根据步骤4)得到的客观热度参数,建立网络视频热度预测模型,预测新网络视频的客观热度;7)选取主观敏感度和客观热度加权求和在网络视频集中排名靠前的视频作为热点视频。

【技术实现步骤摘要】
一种基于多源信息融合分析的网络视频热点事件发现方法
本专利技术属于计算机视觉领域,涉及网络视频热点事件发现方法。
技术介绍
网络视频是当今的信息社会重要的组成部分。网络视频规模庞大并且增长迅速。在给人们生活带来便利的同时,无论从国家安全还是存储便利的角度考虑,从网络视频中检测、跟踪热点敏感事件都是亟待解决的问题。现有的网络视频热点事件发现方案通常是利用人工检测判断视频是否包含敏感或者热点信息,或者依赖于视频标签、评论等文本信息进行判断。然而,一方面随着视频数量的大规模增加,利用人工检测将消耗大量的人力和时间,导致响应迟缓。另一方面,有大量的视频并不包含完整准确的标签及评论信息,基于文本的方法也就无法处理。因此,利用计算机技术,对网络视频本身的内容进行理解标注,再利用数据挖掘的手段处理才是解决热点敏感事件的自动检测的根本手段。本专利技术针对网络视频规模庞大,语义内容复杂等问题,研发基于摘要提取的网络视频下载技术,结合网络视频所具有的标签、评论等多源信息,通过概念检测技术,研发基于多源多维信息融合的网络视频的语义结构化技术,在此基础上,基于主题模型研发视频热点事件的自动发现和推荐技术,最终提出一种基于多源信息融合分析的网络视频热点事件发现方法,实现对热点及敏感事件检测功能,具有重大的科学研究和经济社会价值。
技术实现思路
本专利技术要克服现有技术的上述缺点,针对带有标签、名称、评论等信息的网上视频,自动地发现网络视频中的热点及敏感事件,用以自动化检测大规模网络视频热点敏感事件,有效提高检测网络视频热点事件的召回率,降低网络视频热点事件检测的时间成本。本专利技术提出一种基于多源信息融合分析的网络视频热点事件发现方法,包括以下步骤:1)采集有多源信息的网络视频。2)通过多源融合分析的视频语义结构化模块,将网络视频的多源信息(网络视频的标签、名称和评论)结构化为描述性关键字标签,实现网络视频语义结构化。3)根据步骤2)得到的网络视频语义结构化关键字标签与用户定义的敏感词字典的匹配度,得到网络视频的主观敏感度参数。4)根据网络视频中多源信息的点击率、时间字段,得到网络视频的客观热度参数。5)根据步骤3)得到的主观敏感度参数,建立网络视频敏感度预测模型,预测新网络视频的主观敏感度。6)根据步骤4)得到的客观热度参数,建立网络视频热度预测模型,预测新网络视频的客观热度。7)选取步骤5)得到的网络视频的主观敏感度和步骤6)得到的网络视频的客观热度都大于一定阈值,并且主观敏感度和客观热度加权求和在网络视频集中排名靠前的视频作为热点视频,即网络视频热点事件。所述的多源信息包括网络视频的标签、名称、评论、时间和点击率。所述的多源融合分析的视频语义结构化模块,包括视频摘要下载与多源文本信息摘要、视频概念检测与文本主题建模和视频语义结构化。其中,视频摘要下载与多源文本信息摘要,一方面是指基于已有标注的训练数据,通过视频特征估计视频中前景物体,然后用Gibbs采样学习该前景在时间轴上的分布,从而计算前景在时域上对表现视频内容的似然分布。当给定新的网络视频时,通过前景检测获得前景的起始时间,然后基于学习得到的时域似然分布,在最大似然的同时最小化视频帧的数目,从而获得对该视频的摘要提取;另一方面,将非结构化的语义脚本进行信息摘要,用几句话概括原本冗长的文字脚本。对此,拟采用课题组研发的基于语义重建的文本摘要技术,通过训练文本的语义重建训练获得常用关键词字典。给定新的文本数据时,基于训练得到的关键词字典对该文本数据进行语义重建,从而实现原始多源文本的摘要。系统通过时刻保持对视频摘要数据和文本摘要数据的协同以获得多源数据流摘要之后的一致性。其中,视频概念检测与文本主题建模,是指将摘要下载的网络视频和与之匹配的文字脚本建模为语义单元的集合描述,以便于后续步骤对视频和文本内容的结构化理解。具体包括首先构造视频低层特征与视频概念的支持向量机(SupportVectorMachine,SVM)判别式模型,基于大量的网络视频标注数据对各种视频概念检测SVM进行训练。通过视频概念检测,我们可以排除大部分无用的视频信息,关注于视频中语义概念集中的部分,实现视频的语义概念描述。然后,文本主题建模模块拟采用隐狄利克雷话题模型(LatentDirichletTopicModel,LDTM),利用期望最大化算法得到模型的参数。将每个文本脚本表示成混合话题的分布。给定新的摘要文本时,利用训练得到的话题分布进行文本主题建模,在此基础上将结构化的文本话题与视频语义概念检测结果进行交叉验证,确定网络视频最终的文本语义主题和视频概念。其中,视频语义结构化,是指在完成视频概念检测和文本主题建模之后,将网络视频相关联的多源数据结构化为描述性关键字标签,实现网络视频语义结构化。步骤4所述的所述的客观热度参数,包括网络视频的点击率、扩散速度。步骤5所述的所述的网络视频敏感度预测模型,是通过用户定义的敏感词字典构造敏感度图谱,再基于该图谱对匹配的敏感词进行协同过滤打分,分数越高敏感度越高,反之越低。步骤6所述的所述的网络视频热度预测模型,是采取逻辑回归方法。本专利技术的优点是:本专利技术对非结构的大规模网络视频进行多元信息融合和语义结构化,提取视频与对应文本的关键信息,大大降低存储开销,与此同时本专利技术的多源多维信息融合技术能够处理缺少标签、描述、评论等信息的网络视频,对不同类型和来源的视频具有较好的适应性和鲁棒性,不仅如此,本专利技术的热点事件检测模型综合考虑了视频的主观敏感度和客观热度,保证了热点事件检测的准确性和可靠性。附图说明图1是本专利技术的流程图。图2是视频摘要下载与多源文本信息摘要示意图。图3是视频概念检测与文本主题建模示意图。图4是视频语义结构化示意图。具体实施方式下面结合本专利技术中的附图,对本专利技术的技术方案进行清晰、完整地描述。本专利技术提出一种基于多源信息融合分析的网络视频热点事件发现方法,图1展示了该方法的整体流程。基于多源信息融合分析的网络视频热点事件发现方法具体实施步骤如下:步骤1,采集有多源信息的网络视频。所述的多源信息包括网络视频的标签、名称、评论、时间和点击率。步骤2,通过多源融合分析的视频语义结构化模块,将网络视频的多源信息(网络视频的标签、名称和评论)结构化为描述性关键字标签,实现网络视频语义结构化。所述的多源融合分析的视频语义结构化模块,包括视频摘要下载与多源文本信息摘要、视频概念检测与文本主题建模和视频语义结构化。其中,视频摘要下载与多源文本信息摘要,一方面是指基于已有标注的训练数据,通过视频特征估计视频中前景物体,然后用Gibbs采样学习该前景在时间轴上的分布,从而计算前景在时域上对表现视频内容的似然分布。当给定新的网络视频时,通过前景检测获得前景的起始时间,然后基于学习得到的时域似然分布,在最大似然的同时最小化视频帧的数目,从而获得对该视频的摘要提取;另一方面,将非结构化的语义脚本进行信息摘要,用几句话概括原本冗长的文字脚本。对此,拟采用课题组研发的基于语义重建的文本摘要技术,通过训练文本的语义重建训练获得常用关键词字典。给定新的文本数据时,基于训练得到的关键词字典对该文本数据进行语义重建,从而实现原始多源文本的摘要。系统通过时刻保持对视频摘要数据和文本摘要数据的协本文档来自技高网...

【技术保护点】
一种基于多源信息融合分析的网络视频热点事件发现方法,包括如下步骤:1)采集有多源信息的网络视频;2)通过多源融合分析的视频语义结构化模块,将网络视频的多源信息结构化为描述性关键字标签,实现网络视频语义结构化;3)根据步骤2)得到的网络视频语义结构化关键字标签与用户定义的敏感词字典的匹配度,得到网络视频的主观敏感度参数;4)根据网络视频中多源信息的点击率、时间字段,得到网络视频的客观热度参数;5)根据步骤3)得到的主观敏感度参数,建立网络视频敏感度预测模型,预测新网络视频的主观敏感度;6)根据步骤4)得到的客观热度参数,建立网络视频热度预测模型,预测新网络视频的客观热度;7)选取步骤5)得到的网络视频的主观敏感度和步骤6)得到的网络视频的客观热度都大于一定阈值,并且主观敏感度和客观热度加权求和在网络视频集中排名靠前的视频作为热点视频,即网络视频热点事件。

【技术特征摘要】
1.一种基于多源信息融合分析的网络视频热点事件发现方法,包括如下步骤:1)采集有多源信息的网络视频;2)通过多源融合分析的视频语义结构化模块,将网络视频的多源信息结构化为描述性关键字标签,实现网络视频语义结构化;3)根据步骤2)得到的网络视频语义结构化关键字标签与用户定义的敏感词字典的匹配度,得到网络视频的主观敏感度参数;4)根据网络视频中多源信息中的点击率、时间字段,得到网络视频的客观热度参数;5)根据步骤3)得到的主观敏感度参数,建立网络视频敏感度预测模型,预测新网络视频的主观敏感度;6)根据步骤4)得到的客观热度参数,建立网络视频热度预测模型,预测新网络视频的客观热度;7)选取步骤5)得到的网络视频的主观敏感度和步骤6)得到的网络视频的客观热度都大于一定阈值,并且主观敏感度和客观热度加权求和在网络视频集中排名靠前的视频作为热点视频,即网络视频热点事件。2.根据权利要求1所述的一种基于多源信息融合分析的网络视频热点事件发现方法,其特征在于:步骤1所述的多源信息包括网络视频的标签、名称、评论、时间和点击率。3.根据权利要求1所述的一种基于多源信息融合分析的网络视频热点事件发现方法,其特征在于:步骤2所述的多源融合分析的视频语义结构化模块,用于视频摘要下载与多源文本信息摘要提取、视频概念检测与文本主题建模和视频语义结构化。4.根据权利要求3所述的一种基于多源信息融合分析的网络视频热点事件发现方法,其特征在于:所述的视频摘要下载与多源文本信息摘要提取一方面是指基于已有标注的训练数据,通过视频特征估计视频中前景物体,然后用Gibbs采样学习该前景在时间轴上的分布,从而计算前景在时域上对表现视频内容的似然分布;当给定新的网络视频时,通过前景检测获得前景的起始时间,然后基于学习得到的时域似然分布,在最大似然的同时最小化视频帧的数目,从而获得对该视频的摘要提取;另一方面,将非结构化的语义脚本进行信息摘要提取,用几句话概括原本冗长的文字脚本...

【专利技术属性】
技术研发人员:宋明黎王灿雷杰张珂瑶周星辰卜佳俊
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1