视频分类方法、装置、设备和存储介质制造方法及图纸

技术编号:29403598 阅读:12 留言:0更新日期:2021-07-23 22:41
本公开公开了一种视频分类方法、装置、设备和存储介质,涉及计算机技术领域,具体涉及知识图谱、计算机视觉、深度学习等人工智能技术领域。视频分类方法包括:根据视频的多模态信息,提取所述视频中的关键词;获取所述关键词对应的背景知识,并根据所述关键词和所述背景知识,确定待识别文本;对所述待识别文本进行分类,以得到所述视频的类别。本公开可以提高视频分类的准确性。

【技术实现步骤摘要】
视频分类方法、装置、设备和存储介质
本公开涉及计算机
,具体涉及知识图谱、计算机视觉、深度学习等人工智能
,尤其涉及一种视频分类方法、装置、设备和存储介质。
技术介绍
人工智能(ArtificialIntelligence,AI)是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。随着信息技术发展,视频成为承载信息传递的主要方式之一。随着视频数据的极速增长,可以对视频进行分类,以便基于分类对视频进行存储、管理等。相关技术中,通常是利用视频的单一模态信息对视频进行分类。
技术实现思路
本公开提供了一种视频分类方法、装置、设备和存储介质。根据本公开的一方面,提供了一种视频分类方法,包括:根据视频的多模态信息,提取所述视频中的关键词;获取所述关键词对应的背景知识,并根据所述关键词和所述背景知识,确定待识别文本;对所述待识别文本进行分类,以得到所述视频的类别。根据本公开的另一方面,提供了一种视频分类装置,包括:提取模块,用于根据视频的多模态信息,提取所述视频中的关键词;确定模块,用于获取所述关键词对应的背景知识,并根据所述关键词和所述背景知识,确定待识别文本;分类模块,用于对所述待识别文本进行分类,以得到所述视频的类别。根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。根据本公开的技术方案,可以提高视频分类的准确度。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本公开的限定。其中:图1是根据本公开第一实施例的示意图;图2是根据本公开第二实施例的示意图;图3是根据本公开第三实施例的示意图;图4是根据本公开第四实施例的示意图;图5是根据本公开第五实施例的示意图;图6是根据本公开第六实施例的示意图;图7是用来实现本公开实施例的视频分类方法中任一方法的电子设备的示意图。具体实施方式以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本公开第一实施例的示意图。本实施例提供一种视频分类方法,该方法包括:101、根据视频的多模态信息,提取所述视频中的关键词。102、获取所述关键词对应的背景知识,并根据所述关键词和所述背景知识,确定待识别文本。103、对所述待识别文件进行分类,以得到所述视频的类别。本实施例的执行主体可以为单侧设备主体,比如为服务器。本公开实施例中,模态是指视频中的信息形式,比如,文本、视觉、语音等。多模态信息是指多种形式的信息,具体地,本实施例中,多模态信息包括:文本内容和视觉信息,即一种模态信息是文本内容,另一种模态信息是视觉信息。文本内容是指文本的具体内容,比如,一个文本是关于农村电商的文本,则相应的文本内容可以包括“农村电商”等内容。与文本内容不同的是,文本还可以包括其他信息,比如,文本位置、文本的字体大小等,这些文本信息,如位置、字体大小等,可以作为视觉信息中的一种。进一步地,文本可以包括:所述视频的标题、光学字符识别(OpticalCharacterRecognition,OCR)文本和自动语音识别(AutomaticSpeechRecognition,ASR)文本。其中,所述标题是指视频的概括性的文字说明,比如,在某个视频网站的视频页面上,对应每个视频可以配置相应的文字说明,该文字说明可以作为视频的标题。标题对应的文本内容可以通过对视频页面进行解析,直接获取到。视频由多个视频帧组成,OCR文本是指采用OCR方式,得到的视频帧中的文本。与标题对应的文本内容可以直接获取不同,OCR文本对应的文本内容需要采用OCR方式获取。ASR文本是指对视频对应的语音进行语音识别,采用ASR方式得到的文本。ASR文本对应的文本内容同样也不能直接获取,需要采用ASR方式获取。视觉信息可以包括第一视觉信息和第二视觉信息,第一视觉信息还可以称为微观视觉信息,第二视觉信息还可以称为宏观视觉信息。第一视觉信息是指视频帧中的文本对应的视觉信息,视频帧中的文本比如为上述的OCR文本,第一视觉信息比如包括:OCR文本的位置、OCR文本的字体、OCR文本的出现时长等中的一项或多项。第二视觉信息是指视频中的关键帧,关键帧是指包含特定信息的视频帧,具体地,特定信息比如包括OCR文本、人脸图像等中的一项或多项。在获取到多模态信息后,可以分别对所述多模态信息中的各模态信息,进行特征提取,以得到所述各模态信息对应的特征。比如,多模态信息包括文本和视觉信息,则可以分别提取文本对应的文本特征,以及,视觉特征对应的视觉特征。再对文本特征和视觉特征进行融合,以得到融合特征,再根据融合特征进行关键词标注,以确定所述视频中的关键词。通过对各模态信息对应的特征进行融合,可以使得融合特征包含多种模态的信息,提高分类准确度。在获取到视频中的关键词后,可以获取对应的背景知识,背景知识是指对关键词进行解释、说明的内容。具体地,可以在已有的知识库中获取关键词对应的背景知识。已有的知识库中可以保存各个关键词与对应的背景知识。已有的知识库比如为百度百科。在获取到背景知识后,可以将关键词与背景知识进行拼接,以得到拼接文本,再对拼接文本进行分类,以确定视频的类别。本实施例中,通过基于多模态信息进行处理,可以充分利用视频具有多模态信息的特点,提高视频分类的准确度。通过获取关键词对应的背景知识,并基于背景知识进行处理,可以对关键词的知识进行补充,使得待识别文本具有更高的解释性,从而进一步提高视频分类的准确度。图2是本公开第二实施例的示意图,本实施例提供一本文档来自技高网...

【技术保护点】
1.一种视频分类方法,包括:/n根据视频的多模态信息,提取所述视频中的关键词;/n获取所述关键词对应的背景知识,并根据所述关键词和所述背景知识,确定待识别文本;/n对所述待识别文本进行分类,以得到所述视频的类别。/n

【技术特征摘要】
1.一种视频分类方法,包括:
根据视频的多模态信息,提取所述视频中的关键词;
获取所述关键词对应的背景知识,并根据所述关键词和所述背景知识,确定待识别文本;
对所述待识别文本进行分类,以得到所述视频的类别。


2.根据权利要求1所述的方法,其中,所述根据视频的多模态信息,提取所述视频中的关键词,包括:
分别对所述多模态信息中的各模态信息,进行特征提取,以得到所述各模态信息对应的特征;
对所述各模态信息对应的特征进行融合,以得到融合特征;
根据所述融合特征进行关键词标注,以确定所述视频中的关键词。


3.根据权利要求2所述的方法,其中,所述多模态信息包括:文本内容和视觉信息,所述视觉信息包括第一视觉信息和第二视觉信息,所述第一视觉信息为所述视频中的视频帧中的文本对应的视觉信息,所述第二视觉信息为所述视频中的关键帧,所述分别对所述多模态信息中的各模态信息,进行特征提取,以得到所述各模态信息对应的特征,包括:
对所述文本内容进行第一文本编码,以得到文本特征;
对所述第一视觉信息进行第二文本编码,以得到第一视觉特征;
对所述第二视觉信息进行图像编码,以得到第二视觉特征。


4.根据权利要求2所述的方法,其中,所述对所述各模态信息对应的特征进行融合,以得到融合特征,包括:
对所述各模态信息对应的特征进行向量拼接,以得到拼接向量,将所述拼接向量作为融合特征。


5.根据权利要求2所述的方法,其中,所述根据所述融合特征进行关键词标注,包括:
采用条件随机场,根据所述融合特征进行关键词标注。


6.根据权利要求1所述的方法,其中,所述获取所述关键词对应的背景知识,包括:
从已有的知识库中,获取所述关键词对应的背景知识。


7.根据权利要求1-6任一项所述的方法,其中,所述对所述待识别文本进行分类,包括:
采用分类模型,对所述待识别文本进行分类,所述分类模型采用广电数据训练后得到。


8.一种视频分类装置,包括:
提取模块,用于根据视频的多模态信息,提取所述视频中的关键词;
确定模块,用于获取所述关键词对应的背景知识,并根据所述关键词和所述背景知识,确定待识别文本;
分类模块,用...

【专利技术属性】
技术研发人员:杨虎贺峰汪琦冯知凡柴春光朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1