基于多模态的主题分类方法、装置、设备、以及存储介质制造方法及图纸

技术编号:24456478 阅读:24 留言:0更新日期:2020-06-10 15:42
本公开的实施例涉及一种基于多模态的主题分类方法、装置、设备、以及存储介质,其涉及知识图谱领域。方法包括获得对象的文本信息和非文本信息,其中非文本信息包括视觉信息和音频信息中的至少一项。方法还包括基于预先构建的知识库来确定文本信息中的实体集合,然后基于文本信息和实体集合来提取对象的文本特征。方法还包括基于对象的文本特征和非文本特征来确定对象的主题分类。本公开的实施例在基于多模态信息的对象主题分类过程中,引入了基于知识库的实体链接,并在文本特征提取时考虑所链接的实体。因此,本公开的实施例能够更好地理解待分类的对象的内容,从而获得更准确的主题分类结果。

Topic classification methods, devices, devices, and storage media based on multimodality

【技术实现步骤摘要】
基于多模态的主题分类方法、装置、设备、以及存储介质
本公开的实施例总体上涉及计算机领域,并且更具体地涉及知识图谱领域。
技术介绍
随着移动互联网的不断发展,网络资源(例如视频、语音、图像等)变得越来越流行。例如,视频按照时间的长短,可以被划分为长视频、短视频以及小视频等。长视频是指时长较长、以影视节目为主的视频,其通常由专业影视公司拍摄。短视频是指时长较短、题材更加丰富的视频,其通常不是由影视公司专业的职业或者半职业团队拍摄。而小视频是指时长通常在1分钟以内(例如15秒),以个人用户生产为主,通常是和用户日常生活相关的视频。对于拥有大型多媒体资料库(例如视频)的组织来说,通常需要对视频进行主题分类。主题分类能够让用户更容易地搜索到所需内容,同时也方便视频分发和用户个性化推荐。一般来说,可以基于视频的标题和文本介绍来对视频进行分类,也可以基于视频的具体内容对视频进行分类。
技术实现思路
根据本公开的示例实施例,提供了一种基于多模态的主题分类方法、装置、设备、以及存储介质。在本公开的第一方面中,提供了一种基于多模态的主题分类方法。该方法包括:获得对象的文本信息和非文本信息,其中非文本信息包括视觉信息和音频信息中的至少一项;基于预先构建的知识库,确定文本信息中的实体集合;基于文本信息和实体集合,提取对象的文本特征;以及基于对象的文本特征和非文本特征,确定对象的主题分类,其中非文本特征基于非文本信息而被提取。在本公开的第二方面中,提供了一种基于多模态的主题分类装置。该装置包括:多模态信息获得模块,被配置为获得对象的文本信息和非文本信息,其中非文本信息包括视觉信息和音频信息中的至少一项;实体提取模块,被配置为基于预先构建的知识库,确定文本信息中的实体集合;文本特征提取模块,被配置为基于文本信息和实体集合,提取对象的文本特征;以及主题分类确定模块,被配置为基于对象的文本特征和非文本特征,确定对象的主题分类,其中非文本特征基于非文本信息而被提取。在本公开的第三方面中,提供了一种电子设备,其包括一个或多个处理器以及存储装置,存储装置用于存储一个或多个程序。一个或多个程序当被一个或多个处理器执行,使得电子设备实现根据本公开的实施例的方法或过程。在本公开的第四方面中,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的实施例的方法或过程。应当理解,本
技术实现思路
部分中所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1示出了根据本公开的实施例的用于确定对象的主题的示例环境;图2示出了根据本公开的实施例的基于多模态的主题分类方法的流程图;图3示出了根据本公开的实施例的用于获得视频的文本信息的过程的示意图;图4示出了根据本公开的实施例的用于确定视频的多级主题分类结果的过程的示意图;图5示出了根据本公开的实施例的用于使用核心实体及其对应的主题类型对融合特征进行注意力处理的示意图;图6示出了根据本公开的实施例的用于训练实体向量生成模型的示意图;图7示出了根据本公开的实施例的基于多模态的主题分类装置的框图;以及图8示出了能够实施本公开的多个实施例的电子设备的框图。具体实施方式下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。下文还可能包括其他明确的和隐含的定义。虽然本公开的一些实施例以视频作为对象的示例来描述本公开的基于多模态的主题分类方法,然而,语音、图像等对象也可以与本公开的主题分类方法结合使用。例如,为了方便管理、搜索或推荐视频,通常需要对视频进行分类。传统的视频分类方法主要有以下两种。第一种是人工标注的方式,然而,人工标注的方式不但成本较高、耗时较长、容易出错、需要定期维护,而且无法大规模开展。另一种通过机器学习的方式,例如,机器学习模型基于视频的文本信息或者视觉信息进行分类,然而单模态的信息通常信息量较少,分类结果不太准确,也难以满足复杂场景下的应用需求。一些改进技术尝试使用多模态信息进行视频的主题分类,然而,本申请的专利技术人发现仅仅使用多模态信息也不能获得很好的分类结果。为此,本公开的实施例提出了一种基于知识库的多模态主题分类方法,其将知识库中的知识和多模态信息相结合,进行多模态主题分类。根据本公开的实施例,在特征提取时引入了基于知识库的文本实体链接,并在文本特征提取时考虑所链接的实体。因此,本公开的实施例能够更好地理解待分类的对象的内容,从而获得更准确的主题分类结果。多模态的主题分类能够更好地利用多模态信息,同时,通过知识库的实体链接能够为主题分类带来更多的参考信息,由此获得更好的主题分类效果。本公开的实施例可以应用于对象的主题分类或标签生成,促进对对象的理解和搜索。此外,本公开的实施例还可以用于对象分发和推荐,由此适用于对象推荐冷启动的场景。以下将参考附图1-8详细描述本公开的一些示例实施例。图1示出了本公开的实施例的确定对象的主题的示例环境100,其中对象以视频为示例,但是对象也可以为语音和图像等。如图1所示,将视频110输入到多模态主题理解系统120,可以获得视频110对应的主题输出130,其中多模态主题理解系统120可以包括主题分类模型121和主题推断模型122。视频110可以为各种类型的视频,例如长视频、短视频、小视频等。虽然图1中同时示出了主题分类模型121和主题推断模型122,然而,在一些实施例中,多模态主题理解系统120也可以不包括主题推断模型122。主题分类模型121利用视频110的多模态信息(例如视觉信息、音频信息、文本信息等),可以进行封闭主题的分类,封闭主题可以由人工整理,也可以由计算机自动提取和生成。主题推断模型122可以基于视频110的文本信息,确定视频的主题推断。主题推断可以使用更细粒度并且开放式的主题,从而可以生成视频标签。因此,通过融合主题分类结果和主题推断结果,能够获得融合的主题输出130。因此,本公开的实施例的多模态主题理解系统120可以非常完整,既适用于封闭主题分类,也适用于开放主题的标注。主题分类模型121和主题推断模型122可以利用知识库125中的知识来实现各自的主题分类或推断。知识库1本文档来自技高网
...

【技术保护点】
1.一种基于多模态的主题分类方法,包括:/n获得对象的文本信息和非文本信息,所述非文本信息包括视觉信息和音频信息中的至少一项;/n基于预先构建的知识库,确定所述文本信息中的实体集合;/n基于所述文本信息和所述实体集合,提取所述对象的文本特征;以及/n基于所述对象的所述文本特征和非文本特征,确定所述对象的主题分类,所述非文本特征基于所述非文本信息而被提取。/n

【技术特征摘要】
1.一种基于多模态的主题分类方法,包括:
获得对象的文本信息和非文本信息,所述非文本信息包括视觉信息和音频信息中的至少一项;
基于预先构建的知识库,确定所述文本信息中的实体集合;
基于所述文本信息和所述实体集合,提取所述对象的文本特征;以及
基于所述对象的所述文本特征和非文本特征,确定所述对象的主题分类,所述非文本特征基于所述非文本信息而被提取。


2.根据权利要求1所述的方法,其中获得所述对象的所述文本信息包括:
基于对所述视觉信息的光学字符识别,获得图像文本;
基于对所述音频信息的自动语音识别,获得语音文本;
基于所述对象的标题和弹幕,获得文字文本;以及
通过融合所述图像文本、所述语音文本以及所述文字文本,来获得所述文本信息。


3.根据权利要求1所述的方法,其中确定所述对象的主题分类包括:
基于所述视觉信息和所述音频信息,通过基于注意力的长短期记忆网络提取视觉特征和音频特征;
通过融合所述视觉特征、所述音频特征以及所述文本特征,来获得所述对象的融合特征;以及
基于所述融合特征,确定所述对象的多级主题分类。


4.根据权利要求3所述的方法,其中确定所述对象的多级主题分类包括:
确定所述实体集合中的核心实体;以及
基于所述知识库,确定与所述核心实体相对应的主题类型。


5.根据权利要求4所述的方法,其中确定所述对象的多级主题分类还包括:
通过使用所述核心实体的向量对所述融合特征进行加权处理,来获得第一特征;
通过使用所述主题类型的向量对所述融合特征进行加权处理,来获得第二特征;以及
基于所述第一特征和所述第二特征,确定所述对象的所述多级主题分类。


6.根据权利要求1所述的方法,还包括针对每个实体:
基于所述知识库中的所述实体的文本描述和与所述实体相关的对象,获得正例向量;
基于随机采样的文本和随机采样的对象,获得负例向量;以及
基于预定比例的所述正例向量和所述负例向量,训练所述实体的向量生成模型。


7.根据权利要求6所述的方法,其中获得所述负例向量包括:
统计所述知识库中的所有实体的文本描述中的词语的词频;以及
基于每个词语的词频,随机选择用作负例的词语序列。


8.根据权利要求1所述的方法,还包括:
基于所述文本信息,确定所述对象的主题推断;以及
基于所述对象的所述主题分类和所述主题推断,确定所述对象的融合主题。


9.一种基于多模态的主题分类装置,包括:
多模态信息获得模块,被配置为获得对象的文本信息和非文本信息,所述非文本信息包括视觉信息和音频信息中的至少一项;
实体链接模块,被配置为基于预先构建的知识库,确定所述文本信息中的实体集合;
文本特征提取模块,被配置为基于所述文本信息和所述实体集合,提取所述对象的文本特征;以及
主题分类确定模块,被配置为基于所述对象的所述文本特征和非文本特征,确定所述对象的主题分类,所述非文...

【专利技术属性】
技术研发人员:汪琦冯知凡刘志洁柴春光朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1