【技术实现步骤摘要】
社会事件分类方法及装置
[0001]本专利技术涉及人工智能
,尤其涉及一种社会事件分类方法及装置。
技术介绍
[0002]现如今,互联网已成为社会事件传播的主要载体,用户可以通过浏览互联网中的文本、图像、视频以及音频等内容获知社会事件。
[0003]随着网络技术的发展,互联网中的信息量呈爆炸式的增长。从互联网海量的信息中对社会事件进行分类,可以提高用户搜索、浏览某一类型社会事件的相关信息的效率,避免用户被不相关的内容误导,提高用户体验。现有技术中,可以基于深度学习的方法从互联网海量的信息中对社会事件进行分类。
[0004]通常情况下,从互联网获取到的数据为完备的多模态数据和不完备的多模态数据的混合数据。完备的多模态数据,指通过至少两种模态数据表示同一内容,例如:通过图像及其相应的文字注释表示同一内容。不完备的多模态数据,指完备的多模态数据中缺失了至少一种模态数据,例如:某一内容仅通过图像进行表示,缺失了相应的文字注释。现有的社会事件分类方法可以从完备的多模态数据中对社会事件进行分类,但是难以从上述混合数据中对社会事件进行准确的分类。如何从上述混合数据中对社会事件进行准确的分类是本领域亟待解决的问题。
技术实现思路
[0005]本专利技术提供一种社会事件分类方法及装置,用以解决现有技术中难以从包括完备的多模态数据和不完备的多模态数据的混合数据中对社会事件进行准确的分类的缺陷,实现从上述混合数据中对社会事件进行更准确的分类。
[0006]本专利技术提供一种社会事件分类方法,包 ...
【技术保护点】
【技术特征摘要】
1.一种社会事件分类方法,其特征在于,包括:获取目标数据集;将所述目标数据集输入社会事件分类模型,获取所述社会事件分类模型输出的所述目标数据集对应的社会事件分类结果;其中,所述目标数据集包括图像集和文本集,所述图像集中的部分图像与所述文本集中的部分文本具有对应关系;所述社会事件分类模型,是基于样本数据集以及样本数据集对应的社会事件分类结果进行训练得到的;所述样本数据集包括样本图像集和样本文本集,所述样本图像集中的部分样本图像与所述样本文本集中的部分样本文本具有对应关系。2.根据权利要求1所述的社会事件分类方法,其特征在于,所述社会事件分类模型,包括:局部特征提取层、交叉特征提取层、潜在特征提取层以及社会事件分类层;相应地,所述将所述目标数据集输入社会事件分类模型,获取所述社会事件分类模型输出的所述目标数据集对应的社会事件分类结果,具体包括:将所述目标数据集输入所述局部特征提取层,获取所述局部特征提取层输出的所述目标数据集的局部特征表示;将所述目标数据集的局部特征表示分别输入所述交叉特征提取层和所述潜在特征提取层,获取所述交叉特征提取层输出的所述目标数据集的多模态表示,以及所述潜在特征提取层输出的所述目标数据集的潜在特征表示;将所述目标数据集的多模态表示和潜在特征表示输入所述社会事件分类层,获取所述社会事件分类层输出的所述目标数据集对应的社会事件分类结果。3.根据权利要求2所述的社会事件分类方法,其特征在于,所述潜在特征提取层,包括全局特征提取层、第一变分自编码器和第二变分自编码器;相应地,所述将所述目标数据集的局部特征表示输入所述潜在特征提取层,获取所述潜在特征提取层输出的所述目标数据集的潜在特征表示,具体包括:将所述目标数据集的局部特征表示输入所述全局特征提取层,获取所述全局特征提取层输出的所述图像集的全局特征表示和所述文本集的全局特征表示;将所述图像集的全局特征表示输入所述变分自编码器,由所述第一变分自编码器获取所述图像集中每一图像的潜在特征表示以及所述文本集中第一文本对应的虚拟图像的潜在特征表示,作为所述目标数据集的潜在特征表示中的所述图像集的潜在特征表示;将所述文本集的全局特征表示输入所述第二变分自编码器,由所述第二变分自编码器获取所述文本集中每一文本的潜在特征表示以及所述图像集中第一图像对应的虚拟文本的潜在特征表示,作为所述目标数据集的潜在特征表示中的所述文本集的潜在特征表示;其中,所述第一文本与所述图像集中任一图像不具有对应关系;所述第一图像与所述文本集中的任一文本不具有对应关系。4.根据权利要求3所述的社会事件分类方法,其特征在于,所述社会事件分类模型的损失函数包括分布对齐损失函数;所述分布对齐损失函数,是基于所述样本数据集中每一样本图像的预测潜在特征表示、每一样本文本的预测潜在特征表示、所述样本图像集中第一样本图像对应的虚拟样本文本的预测潜在特征表示以及所述样本数据集中第一样本文本对应的虚拟样本图像的...
【专利技术属性】
技术研发人员:徐常胜,钱胜胜,李章明,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。