【技术实现步骤摘要】
基于多模态的主题分类方法、装置、设备、以及存储介质
本公开的实施例总体上涉及计算机领域,并且更具体地涉及知识图谱领域。
技术介绍
随着移动互联网的不断发展,网络资源(例如视频、语音、图像等)变得越来越流行。例如,视频按照时间的长短,可以被划分为长视频、短视频以及小视频等。长视频是指时长较长、以影视节目为主的视频,其通常由专业影视公司拍摄。短视频是指时长较短、题材更加丰富的视频,其通常不是由影视公司专业的职业或者半职业团队拍摄。而小视频是指时长通常在1分钟以内(例如15秒),以个人用户生产为主,通常是和用户日常生活相关的视频。对于拥有大型多媒体资料库(例如视频)的组织来说,通常需要对视频进行主题分类。主题分类能够让用户更容易地搜索到所需内容,同时也方便视频分发和用户个性化推荐。一般来说,可以基于视频的标题和文本介绍来对视频进行分类,也可以基于视频的具体内容对视频进行分类。
技术实现思路
根据本公开的示例实施例,提供了一种基于多模态的主题分类方法、装置、设备、以及存储介质。在本公开的第一方面中,提供了一种基于多模态的主题分类方法。该方法包括:获得对象的文本信息和非文本信息,其中非文本信息包括视觉信息和音频信息中的至少一项;基于预先构建的知识库,确定文本信息中的实体集合;基于文本信息和实体集合,提取对象的文本特征;以及基于对象的文本特征和非文本特征,确定对象的主题分类,其中非文本特征基于非文本信息而被提取。在本公开的第二方面中,提供了一种基于多模态的主题分类装置。该装置包括:多模 ...
【技术保护点】
1.一种基于多模态的主题分类方法,包括:/n获得对象的文本信息和非文本信息,所述非文本信息包括视觉信息和音频信息中的至少一项;/n基于预先构建的知识库,确定所述文本信息中的实体集合;/n基于所述文本信息和所述实体集合,提取所述对象的文本特征;以及/n基于所述对象的所述文本特征和非文本特征,确定所述对象的主题分类,所述非文本特征基于所述非文本信息而被提取。/n
【技术特征摘要】
1.一种基于多模态的主题分类方法,包括:
获得对象的文本信息和非文本信息,所述非文本信息包括视觉信息和音频信息中的至少一项;
基于预先构建的知识库,确定所述文本信息中的实体集合;
基于所述文本信息和所述实体集合,提取所述对象的文本特征;以及
基于所述对象的所述文本特征和非文本特征,确定所述对象的主题分类,所述非文本特征基于所述非文本信息而被提取。
2.根据权利要求1所述的方法,其中获得所述对象的所述文本信息包括:
基于对所述视觉信息的光学字符识别,获得图像文本;
基于对所述音频信息的自动语音识别,获得语音文本;
基于所述对象的标题和弹幕,获得文字文本;以及
通过融合所述图像文本、所述语音文本以及所述文字文本,来获得所述文本信息。
3.根据权利要求1所述的方法,其中确定所述对象的主题分类包括:
基于所述视觉信息和所述音频信息,通过基于注意力的长短期记忆网络提取视觉特征和音频特征;
通过融合所述视觉特征、所述音频特征以及所述文本特征,来获得所述对象的融合特征;以及
基于所述融合特征,确定所述对象的多级主题分类。
4.根据权利要求3所述的方法,其中确定所述对象的多级主题分类包括:
确定所述实体集合中的核心实体;以及
基于所述知识库,确定与所述核心实体相对应的主题类型。
5.根据权利要求4所述的方法,其中确定所述对象的多级主题分类还包括:
通过使用所述核心实体的向量对所述融合特征进行加权处理,来获得第一特征;
通过使用所述主题类型的向量对所述融合特征进行加权处理,来获得第二特征;以及
基于所述第一特征和所述第二特征,确定所述对象的所述多级主题分类。
6.根据权利要求1所述的方法,还包括针对每个实体:
基于所述知识库中的所述实体的文本描述和与所述实体相关的对象,获得正例向量;
基于随机采样的文本和随机采样的对象,获得负例向量;以及
基于预定比例的所述正例向量和所述负例向量,训练所述实体的向量生成模型。
7.根据权利要求6所述的方法,其中获得所述负例向量包括:
统计所述知识库中的所有实体的文本描述中的词语的词频;以及
基于每个词语的词频,随机选择用作负例的词语序列。
8.根据权利要求1所述的方法,还包括:
基于所述文本信息,确定所述对象的主题推断;以及
基于所述对象的所述主题分类和所述主题推断,确定所述对象的融合主题。
9.一种基于多模态的主题分类装置,包括:
多模态信息获得模块,被配置为获得对象的文本信息和非文本信息,所述非文本信息包括视觉信息和音频信息中的至少一项;
实体链接模块,被配置为基于预先构建的知识库,确定所述文本信息中的实体集合;
文本特征提取模块,被配置为基于所述文本信息和所述实体集合,提取所述对象的文本特征;以及
主题分类确定模块,被配置为基于所述对象的所述文本特征和非文本特征,确定所述对象的主题分类,所述非文...
【专利技术属性】
技术研发人员:汪琦,冯知凡,刘志洁,柴春光,朱勇,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。