一种基于场景或特定对象的即时视频合成方法与系统技术方案

技术编号:17661033 阅读:22 留言:0更新日期:2018-04-08 12:22
本发明专利技术,“一种基于场景或特定对象的即时视频合成方法与系统”,提供了一种在视频播放过程中根据当前视频的内容进行视频合成或切换的系统及方法,通过对视频节目的内容包括对象、场景、行为等进行分析,根据分析结果及播放要求在播放过程中插入或叠加与原视频内容相似或相关的其它内容,达到在播放过程中对视频内容进行修改或增加的系统及方法。对于离线或在线视频,均能实现视频内容的修改,同时所修改的部分能够以与原视频画面在风格、表现形式及内容近似或相关的形式表现出来,避免对原视频内容、表现形式及情节产生过大的破坏或干扰。

【技术实现步骤摘要】
一种基于场景或特定对象的即时视频合成方法与系统
本专利技术总体上涉及一种在视频播放过程中根据当前视频的内容进行视频合成或切换的系统及方法,特别的,本专利技术涉及一种对视频节目的内容进行分析,根据分析结果及播放要求在播放过程中插入或叠加相关内容与当前视频进行合成,从而在播放过程中对视频内容进行修改或增加的系统及方法。
技术介绍
信息技术的发展,特别是网络技术的进步使得视频节目的内容及其呈现形式日益多样、灵活。在视频节目的播放过程中穿插或叠加其它音视频或图片及文字是目前所有视频播放平台获取广告收入的主要手段。由于视频内容的非结构化特性,目前普遍的做法仅限于在指定的时间段(或视频帧)进行内容的切换或叠加。所切换或叠加的内容通常与正在播放的内容无关,很难做到根据正在播放的节目内容有选择性的切换或叠加相关内容。这种生硬的内容切换或叠加在很大程度上破坏了所播放节目的完整性,不仅严重影响观众观看体验,造成观众流失,也无法达到精准的广告或宣传效果。近年来,人工智能、机器学习特别是深度学习的技术有了长足的进步,使得对非结构化的数据如声音、图像甚至视频内容进行更加深入的分析、处理成为可能,由此可以产生出一系列新型的应用形态和商业模式。本专利技术所提供的技术将最新的深度学习理论和技术应用到视频内容的自动化分析中,通过对视频内容中所包含的音视频场景及对象的属性进行分析,根据分析出的场景或属性选择内容和/或形式相关的其它音视频或图片资源与正在播放的视频进行合成或切换。同时,本专利技术还提供了基于上述技术所构建的视频应用系统,用于对视频内容进行分析并将分析结果应用于播放时相关内容的插播。比如,从视频分析中发现一个演员抬腕看手表的镜头,当视频播放到这一画面时,系统自动插入一小段原视频中并没有的某一手表的特写镜头,既可以达到较好的广告效果又不至于对原视频的内容、表现形式及情节产生过大的破坏或干扰造成观众的反感。特别地,利用这一技术更有可能为观众带来新的观影体验及新型的视频应用。
技术实现思路
为了便于理解,下面首先对本专利技术涉及的一些术语进行解释。在本专利技术中,所谓“内容”指视频中所包含的画面及声音等物理元素以及情节、场景等人为描述。“对象”是指视频画面中用户所关心的任何物体或其组合,如人物,车辆,花园,或人物的服装、饰品等。所谓“场景”是指视频画面所表现的环境或氛围,如海边,会议,婚礼等或视频所表现的故事情节。所谓“行为”是指视频画面中上述“对象”的动作或行为,如汽车移动,人抬腕看表等。“深度学习”技术是指机器学习的一个分支,通过建立包含多个层次及特定连接方式的人工神经网络结构,以及适合于多层次结构的网络训练算法,实现对人脑特定功能的模拟,用于对图像、声音、文字等进行识别的技术。“目标”是指上述“内容”、“对象”、“场景”、“行为”的组合,亦即用于视频叠加、覆盖或替换的数据。“帧”或“视频帧”是指某一时刻的视频画面。本专利技术所提供的对视频节目的内容进行分析,根据分析结果及播放要求在播放过程中插入或叠加其它音、视频或图片及文字与当前视频进行合成,从而对正在播放的视频内容进行修改或增加的方法使得视频节目播放过程中可以插入、叠加或覆盖与正在播放的视频在内容或/及形式上高度相关的音、视频及图文。基于此方法所构建的视频应用系统可以提供与视频内容密切相关的广告及信息服务,新型的游戏应用,全新的观影体验等,同时将由此带来的对原视频节目的干扰降低到观众易于接受的程度。对视频节目内容进行分析的系统和方法。本专利技术利用深度学习技术对来自视频节目源的实时或非实时视频画面进行分析,从中提取出每一帧/时刻或每一组/时间段的音、视频内容属性,包括但不限于其场景、情节、人物、物品、行为等存入“播放数据库”。具体而言,本专利技术提供了一种对视频画面进行内容分析并将分析结果进行分类并与特定内容进行匹配后存入数据库供视频播放时进行内容插入、叠加或覆盖的系统和方法。将视频节目中某一内容与其它指定内容进行匹配。本专利技术将分析出的音、视频节目某一帧/时刻或某一组/时间段的音、视频内容属性与数据库中或互联网上已有的节目内容信息进行匹配,从而确定与当前节目画面具有关联信息的特定对象,在播放过程中通过插入、覆盖或叠加与当前视频进行合成。本专利技术还提供了一种将视频节目中具有关联信息的特定对象加以呈现的系统和方法,将与当前视频相关的对象以与当前视频画面在风格、表现形式及内容近似或相关的形式表现出来,避免对原视频内容、表现形式及情节产生过大的破坏或干扰造成观众的反感。附图说明本说明书中所参考的附图只用于示例本专利技术的典型实施例,不应该认为是对本专利技术范围的限制。图1示出了本专利技术中对视频节目内容进行分析的方法的一个实施例的操作示意图。图2示出了本专利技术中对视频节目内容进行分析的一个实施例的系统框图。图3示出了本专利技术中将视频节目中具有关联信息的特定对象加以呈现的方法。图4示出了本专利技术中将视频节目中具有关联信息的特定对象加以呈现的系统框图。图5示出了本专利技术中另一个实施例,对实时视频节目内容进行分析及内容叠加/替换的方法的操作示意图。具体实施方式下列讨论中,提供大量具体的细节以帮助彻底了解本专利技术。然而,很显然对于本领域技术人员来说,即使没有这些具体细节,并不影响对本专利技术的理解。并且应该认识到,使用如下的任何具体术语仅仅是为了方便描述,因此,本专利技术不应当局限于只用在这样的术语所标识和/或暗示的任何特定应用中。图1示出了按照本专利技术的一个实施例的操作示意图。用户首先根据需要设定视频播放时欲插入/覆盖或叠加的一个或多个目标(步骤101),亦即代表需要与原视频进行混合的对象、场景等的数据。此等对象、场景等可来自于已有数据库、互联网或临时生成,且根据应用及表现形式的需要,其形式可以为图片、文字、声音等。同时还可以设定与所设目标相关或相似的目标以扩大应用的适用范围(步骤102)。目标设置完成后即可开始所选择需要的视频源逐帧或定时进行解码(步骤103、104)。采集当前位置的图像(步骤105),并根据“深度学习网络”的要求对其进行滤波、色彩/灰度变换、亮度/对比度增强、尺寸/分辨率归一化等预处理(步骤106)。经过预处理的图像送入带有“已训练模型”的“深度学习网络”进行检测、识别、跟踪、分类,获得与所设目标的相似度(步骤107)并判断其是否为所设目标(步骤108)或相关目标(步骤109)。如果是所设目标或相关目标,则将其相关信息包括所在视频源、位置以及来自内容数据库或其它来源的需要与原视频进行混合的对象、场景等等索引信息存入播放数据库供播放时使用(步骤111)。如果未找到所设目标或相关目标则重复以上步骤105至111(步骤113),直至视频结束(步骤112)。特别地,还可通过对帧与帧之间上下文关系的分析(步骤110),例如同一目标在不同帧帧中位置的变化情况,对所设定的目标进行修改以提高检测的准确度,同时亦可作为目标检测的判断标准。图2示出了按照本专利技术的一个实施例的系统框图。其中201为目标设置单元,用于上述步骤101中根据对象/场景数据库(202)设置视频播放时欲插入、覆盖或叠加的一个或多个目标(203),并送入深度学习网络(209)作为欲检测、识别、跟踪、分类的目标。来自视频源(205)的视频经视频选择器(204)和帧选择器(206本文档来自技高网
...
一种基于场景或特定对象的即时视频合成方法与系统

【技术保护点】
一种基于场景或特定对象的即时视频合成系统,亦即通过分析视频画面中特定的“对象”、“场景”、“行为”等,在播放过程中插入或叠加相关内容与当前视频进行合成,从而实现在播放过程中对视频内容进行修改或增加。其中所述“对象”是指视频画面中用户所关心的任何部分或其组合,如人物,车辆,花园,或人物的服饰等,“场景”是指视频画面所表现的环境或氛围,如海边,会议,婚礼等或视频所表现的故事情节,“行为”是指视频画面中上述“对象”的动作,如汽车移动,人抬腕看表等。

【技术特征摘要】
1.一种基于场景或特定对象的即时视频合成系统,亦即通过分析视频画面中特定的“对象”、“场景”、“行为”等,在播放过程中插入或叠加相关内容与当前视频进行合成,从而实现在播放过程中对视频内容进行修改或增加。其中所述“对象”是指视频画面中用户所关心的任何部分或其组合,如人物,车辆,花园,或人物的服饰等,“场景”是指视频画面所表现的环境或氛围,如海边,会议,婚礼等或视频所表现的故事情节,“行为”是指视频画面中上述“对象”的动作,如汽车移动,人抬腕看表等。2.一种权利要求1所述系统,根据预设的目标(“对象”、“场景”、“行为”等),非实时(离线)分析的系统,其中包括目标设定、图像采集、深度学习网络、帧与帧上下文分析等模块。3.一种权利要求1所述系统,在播放时根据设定的目标(“对象”、“场景”、“行为”等)以及呈现方式进行视频合成的系统。4.一种权利要求1所述系统,根据预设的目标(“对象”、“场景”、“行为”等),实时(在线)分析的系统,并根据设定的目标(“对象”、“场景”、“行为”等)以及呈现方式实时进行视频合成的系统。5.一种权利要求2所述系统,根据帧与帧之间的上下文关系对预设目标进行修正的装置。6.一种基于场景或特定对象的即时视频合成方法,亦即通过分析视频画面中特定的“对象”、“场景”、“行为”等,在播放过程中插入或叠加相关内容与当前视频进...

【专利技术属性】
技术研发人员:宋松许怡洋张岳马超杰闫军
申请(专利权)人:北京视连通科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1