An intelligent high capacity video recognition method based on multimodal fusion, which performs multimodal identification of the input video in order to extract multiple elements in the video and the time of each element. Then, a number of elements are classified, and the elements of each corresponding class are recognized according to different algorithms. When the recognition accuracy of any element is not enough, cross identification is carried out according to other elements appearing at the same time to improve the recognition accuracy and fault tolerance of the system. In addition, the same element in the continuous period of time, even if the accuracy is not enough, but as long as the identification of one of the frames can be summarized to determine the content of this element. Finally, multimodal fusion is performed on the basis of the multiple elements identified and the time at which the elements appear, creating an index file for the user to search for text in the video.
【技术实现步骤摘要】
基于多模态融合的智能高容错视频识别系统及其识别方法
本专利技术涉及一种识别系统与识别方法,尤其涉及一种视频的识别系统与识别方法。
技术介绍
随着网络技术的发展以及云端服务的普及化,许多业者会将视频上传至网络,以令用户可以得到比文字更为丰富的内容。一般来说,业者于上传各类视频,例如音乐录音带、广告、电影等时,会同时为各该视频编写一段文字描述。当用户要寻找一段视频时,主要是在网络平台上输入该视频的关键词,若用户输入的关键词存在于该视频的文字描述中,用户就可以成功搜寻到该视频。如上所述,现今业者在上传视频时,需以人工方式为每一段视频分别撰写对应的文字描述,因此需耗费相当高的成本。再者,上述文字描述通常是依据该视频的主要剧情或是导演要表达的内容来撰写,不一定和该视频中实际出现的元素(例如人物、场景、音乐等)有实际的关联。因此,即使用户以该视频中出现的人物、场景或音乐的名称做为关键词来进行搜寻,也不见得能成功搜寻到该视频。有鉴于此,如何令业者以最节省成本的方式来为视频产生对应的文字描述,以及令用户能以视频中实际出现的元素的名称做为关键词来准确搜寻所需的视频片段,即为本
的技术人员所潜心研究的方向。
技术实现思路
本专利技术的主要目的是在于提供一种基于多模态融合的智能高容错视频识别系统及其识别方法,可识别出视频中包含的多个元素的名称,以及各个元素在视频中出现的时间,藉此可供用户以文字进行所需视频片段的搜寻动作。本专利技术的另一主要目的,在于提供一种基于多模态融合的智能高容错视频识别系统及其识别方法,可对同一时间出现的多个元素进行多模态融合识别,以提升各个元素的识别准 ...
【技术保护点】
一种基于多模态融合的智能高容错视频识别方法,其特征在于,包括下列步骤:a)输入一视频;b)对该视频进行分析,以撷取该视频中的多个元素,以及各该元素出现的时间;c)对各该元素进行分类;d)通过多个算法分别对分类后的各该元素进行识别,其中各该算法分别对应至多个类别的其中之一;e)对多个该元素进行交叉识别以提升各该元素的识别准确率与容错性;及f)依据识别完成的各该元素为该视频产生可供文字搜寻的一索引文件,其中该索引文件包含各该元素的类别、名称以及于该视频中出现的时间。
【技术特征摘要】
1.一种基于多模态融合的智能高容错视频识别方法,其特征在于,包括下列步骤:a)输入一视频;b)对该视频进行分析,以撷取该视频中的多个元素,以及各该元素出现的时间;c)对各该元素进行分类;d)通过多个算法分别对分类后的各该元素进行识别,其中各该算法分别对应至多个类别的其中之一;e)对多个该元素进行交叉识别以提升各该元素的识别准确率与容错性;及f)依据识别完成的各该元素为该视频产生可供文字搜寻的一索引文件,其中该索引文件包含各该元素的类别、名称以及于该视频中出现的时间。2.如权利要求1所述的基于多模态融合的智能高容错视频识别方法,其特征在于,更包括下列步骤:g)步骤c后,判断是否有识别准确率不足的一特定元素;及h)于判断有识别准确率不足的该特定元素时执行该步骤e。3.如权利要求2所述的基于多模态融合的智能高容错视频识别方法,其特征在于,该步骤e是将该特定元素与同一时间出现的其他元素进行交叉识别,或是对出现在多个不同时间点中的该特定元素进行交叉识别。4.如权利要求1所述的基于多模态融合的智能高容错视频识别方法,其特征在于,更包括一步骤i:依据识别完成的各该元素为该视频产生具有逻辑性的一影片叙述。5.如权利要求4所述的基于多模态融合的智能高容错视频识别方法,其特征在于,更包括下列步骤:j)步骤f后,依据场景切换、分镜改变或时间区间经过将该视频区分为多个片段;及k)依据各该片段中出现的各该元素,分别为各该片段产生具有逻辑性的该影片叙述。6.如权利要求5所述的基于多模态融合的智能高容错视频识别方法,其特征在于,该步骤i与该步骤k是通过自然语音处理算法对各该元素进行处理,以产生具有逻辑性的该影片叙述。7.如权利要求5所述的基于多模态融合的智能高容错视频识别方法,其特征在于,该索引文件与该影片叙述中不包含识别准确率低于一标准值的一或多个该元素。8.如权利要求1-7中任一项所述的基于多模态融合的智能高容错视频识别方法,其特征在于,该多个类别至少包括人脸、影像、文字、声音、动作、物件及场景中的任意两种。9.一种基于多模态融合的智能高容错视频识别系统,其特征在于,包括:一影片输入子系统,接收一视频的输入;一元素撷取与分类子系统,连接该影片输入子系统,对该视频进行分析,以撷取该视频中的多个元素以及各该元素出现的时间,并且对撷取出来的该多个元素进行分类;多个元素识别子系统,连接该元素撷取与分类子系...
【专利技术属性】
技术研发人员:胥国栋,黄俊傑,陈彦呈,
申请(专利权)人:创意引晴股份有限公司,
类型:发明
国别省市:中国台湾,71
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。