基于多模态融合的智能高容错视频识别系统及其识别方法技术方案

技术编号:15437310 阅读:96 留言:0更新日期:2017-05-25 19:27
一种基于多模态融合的智能高容错视频识别方法,对输入的视频进行多模态识别,以取出视频中的多个元素及各元素出现的时间。接着对多个元素进行分类,并依据不同算法分别对各个对应类别的元素进行识别。于任一元素的识别准确率不足时,依据同一时间出现的其他元素进行交叉识别,以提升系统的识别准确率及容错性。此外,同一元素在连续时间段里面,即使准确率不足,但只要识别其中一帧就可以归纳确定此元素的内容。最后,依据识别完成的多个元素以及各个元素出现的时间进行多模态融合,为视频产生可供用户以文字进行搜寻的索引文件。

Intelligent high capacity video error identification system and identification method based on multi-modal fusion

An intelligent high capacity video recognition method based on multimodal fusion, which performs multimodal identification of the input video in order to extract multiple elements in the video and the time of each element. Then, a number of elements are classified, and the elements of each corresponding class are recognized according to different algorithms. When the recognition accuracy of any element is not enough, cross identification is carried out according to other elements appearing at the same time to improve the recognition accuracy and fault tolerance of the system. In addition, the same element in the continuous period of time, even if the accuracy is not enough, but as long as the identification of one of the frames can be summarized to determine the content of this element. Finally, multimodal fusion is performed on the basis of the multiple elements identified and the time at which the elements appear, creating an index file for the user to search for text in the video.

【技术实现步骤摘要】
基于多模态融合的智能高容错视频识别系统及其识别方法
本专利技术涉及一种识别系统与识别方法,尤其涉及一种视频的识别系统与识别方法。
技术介绍
随着网络技术的发展以及云端服务的普及化,许多业者会将视频上传至网络,以令用户可以得到比文字更为丰富的内容。一般来说,业者于上传各类视频,例如音乐录音带、广告、电影等时,会同时为各该视频编写一段文字描述。当用户要寻找一段视频时,主要是在网络平台上输入该视频的关键词,若用户输入的关键词存在于该视频的文字描述中,用户就可以成功搜寻到该视频。如上所述,现今业者在上传视频时,需以人工方式为每一段视频分别撰写对应的文字描述,因此需耗费相当高的成本。再者,上述文字描述通常是依据该视频的主要剧情或是导演要表达的内容来撰写,不一定和该视频中实际出现的元素(例如人物、场景、音乐等)有实际的关联。因此,即使用户以该视频中出现的人物、场景或音乐的名称做为关键词来进行搜寻,也不见得能成功搜寻到该视频。有鉴于此,如何令业者以最节省成本的方式来为视频产生对应的文字描述,以及令用户能以视频中实际出现的元素的名称做为关键词来准确搜寻所需的视频片段,即为本
的技术人员所潜心研究的方向。
技术实现思路
本专利技术的主要目的是在于提供一种基于多模态融合的智能高容错视频识别系统及其识别方法,可识别出视频中包含的多个元素的名称,以及各个元素在视频中出现的时间,藉此可供用户以文字进行所需视频片段的搜寻动作。本专利技术的另一主要目的,在于提供一种基于多模态融合的智能高容错视频识别系统及其识别方法,可对同一时间出现的多个元素进行多模态融合识别,以提升各个元素的识别准确率与容错性。为了达成上述目的,本专利技术提供一种基于多模态融合的智能高容错视频识别方法,其特征在于,包括下列步骤:a)输入一视频;b)对该视频进行分析,以撷取该视频中的多个元素,以及各该元素出现的时间;c)对各该元素进行分类;d)通过多个算法分别对分类后的各该元素进行识别,其中各该算法分别对应至多个类别的其中之一;e)对多个该元素进行交叉识别以提升各该元素的识别准确率与容错性;及f)依据识别完成的各该元素为该视频产生可供文字搜寻的一索引文件,其中该索引文件包含各该元素的类别、名称以及于该视频中出现的时间。承上所述,该基于多模态融合的智能高容错视频识别方法更包括下列步骤:g)步骤c后,判断是否有识别准确率不足的一特定元素;及h)于判断有识别准确率不足的该特定元素时执行该步骤e。承上所述,该步骤e是将该特定元素与同一时间出现的其他元素进行交叉识别,或是对出现在多个不同时间点中的该特定元素进行交叉识别。承上所述,该基于多模态融合的智能高容错视频识别方法更包括一步骤i:依据识别完成的各该元素为该视频产生具有逻辑性的一影片叙述。承上所述,该基于多模态融合的智能高容错视频识别方法更包括下列步骤:j)步骤f后,依据场景切换、分镜改变或时间区间经过将该视频区分为多个片段;及k)依据各该片段中出现的各该元素,分别为各该片段产生具有逻辑性的该影片叙述。承上所述,该步骤i与该步骤k是通过自然语音处理算法对各该元素进行处理,以产生具有逻辑性的该影片叙述。承上所述,该索引文件与该影片叙述中不包含识别准确率低于一标准值的一或多个该元素。承上所述,该多个类别至少包括人脸、影像、文字、声音、动作、物件及场景中的任意两种。本专利技术另外提供一种基于多模态融合的智能高容错视频识别系统,其特征在于,包括:一影片输入子系统,接收一视频的输入;一元素撷取与分类子系统,连接该影片输入子系统,对该视频进行分析,以撷取该视频中的多个元素以及各该元素出现的时间,并且对撷取出来的该多个元素进行分类;多个元素识别子系统,连接该元素撷取与分类子系统,各该元素识别子系统分别对应至多个类别的其中之一,并且采用对应的一算法对所属类别的各该元素进行识别,并且该多个元素识别子系统对多个该元素进行交叉识别以提升各该元素的识别准确率及容错性;及一索引文件产生子系统,连接该多个元素识别子系统,依据识别完成的各该元素为该视频产生可供文字搜寻的一索引文件,其中该索引文件包含各该元素的类别、名称以及于该视频中出现的时间。承上所述,该多个元素识别子系统是于一特定元素的识别准确率不足时,将该特定元素与同一时间出现的其他元素进行交叉识别,或是对出现在多个不同的时间点中的该特定元素进行交叉识别。承上所述,该基于多模态融合的智能高容错视频识别系统更包括一分类数据库,连接该元素撷取与分类子系统,该分类数据库储存多个类别的多个特征,该元素撷取与分类子系统将各该元素与该些特征进行比对,以确认各该元素分别属于哪个类别。承上所述,该基于多模态融合的智能高容错视频识别系统更包括多个元素数据库,分别连接该多个元素识别子系统的其中之一,与所连接的该元素识别子系统属于同一类别,并且储存所属类别的元素数据。承上所述,该基于多模态融合的智能高容错视频识别系统更包括:一语料库,储存多个语法规则;及一影片叙述产生子系统,连接该多个元素识别子系统及该语料库,依据识别完成的各该元素及该多个语法规则,为该视频产生具有逻辑性的一影片叙述。承上所述,该影片叙述产生子系统依据场景切换、分镜改变或时间区间经过将该视频区分为多个片段,再依据各该片段中出现的各该元素,分别为各该片段产生具有逻辑性的该影片叙述。承上所述,该影片叙述产生子系统为一自然语言处理系统。承上所述,该基于多模态融合的智能高容错视频识别系统更包括一主数据库,连接该影片输入子系统、该索引文件产生子系统及该影片叙述产生子系统,储存该视频、该索引文件及该影片叙述。承上所述,该多个类别至少包括人脸、影像、文字、声音、动作、物件及场景中的任意两种。本专利技术对照现有技术所能达成的技术功效在于,识别系统会为识别完成的视频产生专属的一索引文件,该索引文件中记录了该视频中出现的所有元素,以及各个元素于该视频中出现的时间。如此一来,当一用户以文字进行所需元素,例如人物、场景、音乐、动作等的搜寻时,可直接得到包含有该些元素的视频,以及该些元素于该视频中出现的片段,相当便利。另外,本专利技术是对各个元素进行分类后,再依据对应的算法来分别对各个类别的元素进行识别,如此可以同时对视频中出现的多个类别的元素进行识别。并且,本专利技术还可以将同一时间出现的多个元素进行交叉识别,以及对出现在多个不同时间的同一个元素进行交叉比对。如此一来,可以有效提升各个元素的识别准确率与容错性。附图说明图1为本专利技术的第一具体实施例的视频识别平台架构图。图2为本专利技术的第一具体实施例的识别系统方块图。图3为本专利技术的第一具体实施例的识别流程图。图4为本专利技术的第一具体实施例的元素识别示意图。图5为本专利技术的第一具体实施例的元素出现时间示意图。图6为本专利技术的第一具体实施例的元素搜寻流程图。其中,附图标记:1…基于多模态融合的智能高容错视频识别系统11…影片输入子系统12…元素撷取与分类子系统121…分类数据库13…元素识别子系统131…第一元素识别子系统132…第二元素识别子系统13n…第n元素识别子系统14…元素数据库141…第一元素数据库142…第二元素数据库14n…第n元素数据库15…索引文件产生子系统16…影片叙述产生子系统161…语料库17…主数据库2本文档来自技高网...
基于多模态融合的智能高容错视频识别系统及其识别方法

【技术保护点】
一种基于多模态融合的智能高容错视频识别方法,其特征在于,包括下列步骤:a)输入一视频;b)对该视频进行分析,以撷取该视频中的多个元素,以及各该元素出现的时间;c)对各该元素进行分类;d)通过多个算法分别对分类后的各该元素进行识别,其中各该算法分别对应至多个类别的其中之一;e)对多个该元素进行交叉识别以提升各该元素的识别准确率与容错性;及f)依据识别完成的各该元素为该视频产生可供文字搜寻的一索引文件,其中该索引文件包含各该元素的类别、名称以及于该视频中出现的时间。

【技术特征摘要】
1.一种基于多模态融合的智能高容错视频识别方法,其特征在于,包括下列步骤:a)输入一视频;b)对该视频进行分析,以撷取该视频中的多个元素,以及各该元素出现的时间;c)对各该元素进行分类;d)通过多个算法分别对分类后的各该元素进行识别,其中各该算法分别对应至多个类别的其中之一;e)对多个该元素进行交叉识别以提升各该元素的识别准确率与容错性;及f)依据识别完成的各该元素为该视频产生可供文字搜寻的一索引文件,其中该索引文件包含各该元素的类别、名称以及于该视频中出现的时间。2.如权利要求1所述的基于多模态融合的智能高容错视频识别方法,其特征在于,更包括下列步骤:g)步骤c后,判断是否有识别准确率不足的一特定元素;及h)于判断有识别准确率不足的该特定元素时执行该步骤e。3.如权利要求2所述的基于多模态融合的智能高容错视频识别方法,其特征在于,该步骤e是将该特定元素与同一时间出现的其他元素进行交叉识别,或是对出现在多个不同时间点中的该特定元素进行交叉识别。4.如权利要求1所述的基于多模态融合的智能高容错视频识别方法,其特征在于,更包括一步骤i:依据识别完成的各该元素为该视频产生具有逻辑性的一影片叙述。5.如权利要求4所述的基于多模态融合的智能高容错视频识别方法,其特征在于,更包括下列步骤:j)步骤f后,依据场景切换、分镜改变或时间区间经过将该视频区分为多个片段;及k)依据各该片段中出现的各该元素,分别为各该片段产生具有逻辑性的该影片叙述。6.如权利要求5所述的基于多模态融合的智能高容错视频识别方法,其特征在于,该步骤i与该步骤k是通过自然语音处理算法对各该元素进行处理,以产生具有逻辑性的该影片叙述。7.如权利要求5所述的基于多模态融合的智能高容错视频识别方法,其特征在于,该索引文件与该影片叙述中不包含识别准确率低于一标准值的一或多个该元素。8.如权利要求1-7中任一项所述的基于多模态融合的智能高容错视频识别方法,其特征在于,该多个类别至少包括人脸、影像、文字、声音、动作、物件及场景中的任意两种。9.一种基于多模态融合的智能高容错视频识别系统,其特征在于,包括:一影片输入子系统,接收一视频的输入;一元素撷取与分类子系统,连接该影片输入子系统,对该视频进行分析,以撷取该视频中的多个元素以及各该元素出现的时间,并且对撷取出来的该多个元素进行分类;多个元素识别子系统,连接该元素撷取与分类子系...

【专利技术属性】
技术研发人员:胥国栋黄俊傑陈彦呈
申请(专利权)人:创意引晴股份有限公司
类型:发明
国别省市:中国台湾,71

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1