社会事件分类方法及装置制造方法及图纸

技术编号:33436869 阅读:18 留言:0更新日期:2022-05-19 00:25
本发明专利技术提供一种社会事件分类方法及装置,获取目标数据集;将目标数据集输入社会事件分类模型,获取社会事件分类模型输出的目标数据集对应的社会事件分类结果;其中,目标数据集包括图像集和文本集,图像集中的部分图像与文本集中的部分文本具有对应关系;社会事件分类模型,是基于样本数据集以及样本数据集对应的社会事件分类结果进行训练得到的;样本数据集包括样本图像集和样本文本集,样本图像集中的部分样本图像与样本文本集中的部分样本文本具有对应关系。本发明专利技术提供的社会事件分类方法及装置,能更准确、更高效的对包括完备的多模态数据以及不完备的多模态数据的混合数据进行社会事件分类。行社会事件分类。行社会事件分类。

【技术实现步骤摘要】
社会事件分类方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种社会事件分类方法及装置。

技术介绍

[0002]现如今,互联网已成为社会事件传播的主要载体,用户可以通过浏览互联网中的文本、图像、视频以及音频等内容获知社会事件。
[0003]随着网络技术的发展,互联网中的信息量呈爆炸式的增长。从互联网海量的信息中对社会事件进行分类,可以提高用户搜索、浏览某一类型社会事件的相关信息的效率,避免用户被不相关的内容误导,提高用户体验。现有技术中,可以基于深度学习的方法从互联网海量的信息中对社会事件进行分类。
[0004]通常情况下,从互联网获取到的数据为完备的多模态数据和不完备的多模态数据的混合数据。完备的多模态数据,指通过至少两种模态数据表示同一内容,例如:通过图像及其相应的文字注释表示同一内容。不完备的多模态数据,指完备的多模态数据中缺失了至少一种模态数据,例如:某一内容仅通过图像进行表示,缺失了相应的文字注释。现有的社会事件分类方法可以从完备的多模态数据中对社会事件进行分类,但是难以从上述混合数据中对社会事件进行准确的分类。如何从上述混合数据中对社会事件进行准确的分类是本领域亟待解决的问题。

技术实现思路

[0005]本专利技术提供一种社会事件分类方法及装置,用以解决现有技术中难以从包括完备的多模态数据和不完备的多模态数据的混合数据中对社会事件进行准确的分类的缺陷,实现从上述混合数据中对社会事件进行更准确的分类。
[0006]本专利技术提供一种社会事件分类方法,包括:
[0007]获取目标数据集;
[0008]将所述目标数据集输入社会事件分类模型,获取所述社会事件分类模型输出的所述目标数据集对应的社会事件分类结果;
[0009]其中,所述目标数据集包括图像集和文本集,所述图像集中的部分图像与所述文本集中的部分文本具有对应关系;
[0010]所述社会事件分类模型,是基于样本数据集以及样本数据集对应的社会事件分类结果进行训练得到的;所述样本数据集包括样本图像集和样本文本集,所述样本图像集中的部分样本图像与所述样本文本集中的部分样本文本具有对应关系。
[0011]根据本专利技术提供的一种社会事件分类方法,所述社会事件分类模型,包括:局部特征提取层、交叉特征提取层、潜在特征提取层以及社会事件分类层;
[0012]相应地,所述将所述目标数据集输入社会事件分类模型,获取所述社会事件分类模型输出的所述目标数据集对应的社会事件分类结果,具体包括:
[0013]将所述目标数据集输入所述局部特征提取层,获取所述局部特征提取层输出的所
述目标数据集的局部特征表示;
[0014]将所述目标数据集的局部特征表示分别输入所述交叉特征提取层和所述潜在特征提取层,获取所述交叉特征提取层输出的所述目标数据集的多模态表示,以及所述潜在特征提取层输出的所述目标数据集的潜在特征表示;
[0015]将所述目标数据集的多模态表示和潜在特征表示输入所述社会事件分类层,获取所述社会事件分类层输出的所述目标数据集对应的社会事件分类结果。
[0016]根据本专利技术提供的一种社会事件分类方法,所述潜在特征提取层,包括全局特征提取层、第一变分自编码器和第二变分自编码器;
[0017]相应地,所述将所述目标数据集的局部特征表示输入所述潜在特征提取层,获取所述潜在特征提取层输出的所述目标数据集的潜在特征表示,具体包括:
[0018]将所述目标数据集的局部特征表示输入所述全局特征提取层,获取所述全局特征提取层输出的所述图像集的全局特征表示和所述文本集的全局特征表示;
[0019]将所述图像集的全局特征表示输入所述变分自编码器,由所述第一变分自编码器获取所述图像集中每一图像的潜在特征表示以及所述文本集中第一文本对应的虚拟图像的潜在特征表示,作为所述目标数据集的潜在特征表示中的所述图像集的潜在特征表示;
[0020]将所述文本集的全局特征表示输入所述第二变分自编码器,由所述第二变分自编码器获取所述文本集中每一文本的潜在特征表示以及所述图像集中第一图像对应的虚拟文本的潜在特征表示,作为所述目标数据集的潜在特征表示中的所述文本集的潜在特征表示;
[0021]其中,所述第一文本与所述图像集中任一图像不具有对应关系;所述第一图像与所述文本集中的任一文本不具有对应关系。
[0022]根据本专利技术提供的一种社会事件分类方法,所述社会事件分类模型的损失函数包括分布对齐损失函数;
[0023]所述分布对齐损失函数,是基于所述样本数据集中每一样本图像的预测潜在特征表示、每一样本文本的预测潜在特征表示、所述样本图像集中第一样本图像对应的虚拟样本文本的预测潜在特征表示以及所述样本数据集中第一样本文本对应的虚拟样本图像的预测潜在特征表示确定的;
[0024]其中,所述第一样本文本与所述样本图像集中的任一样本图像不具有对应关系;所述第一样本图像与所述样本文本集中的任一样本文本不具有对应关系;
[0025]所述每一样本图像的预测潜在特征表示和所述第一样本文本对应的虚拟样本图像的预测潜在特征表示,是将所述样本数据集输入训练中的社会事件分类模型,由所述训练中的社会事件分类模型的第一变分自编码器输出的,所述每一样本文本的预测潜在特征表示和所述第一样本图像对应的虚拟样本文本的预测潜在特征表示,是将所述样本数据集输入训练中的社会事件分类模型,由所述训练中的社会事件分类模型的第二变分自编码器输出的。
[0026]根据本专利技术提供的一种社会事件分类方法,所述社会事件分类模型的损失函数包括交叉对齐损失函数;
[0027]所述交叉对齐损失函数,是基于所述图像集的全局特征表示和所述文本集的全局特征表示确定的。
[0028]根据本专利技术提供的一种社会事件分类方法,所述交叉特征提取层,包括:第一特征融合层、第二特征融合层和第一文本卷积层;
[0029]相应地,将所述目标数据集的局部特征表示输入所述交叉特征提取层,获取所述交叉特征提取层输出的所述目标数据集的多模态表示,具体包括:
[0030]将所述目标数据集的局部特征表示中的所述图像集的局部特征表示输入所述第一特征融合层,获取所述第一特征融合层输出的所述图像集的局部子特征表示;
[0031]将所述图像集的局部子特征表示和所述目标数据集的局部特征表示中的所述文本集的局部特征表示输入所述第二特征融合层,获取所述第二特征融合层输出的所述目标数据集的融合特征;
[0032]将所述图像集的局部子特征表示和所述目标数据集的融合特征输入所述第一文本卷积层,获取所述第一文本卷积层输出的所述目标数据集的多模态表示。
[0033]本专利技术还提供一种社会事件分类装置,包括:
[0034]数据获取模块,用于获取目标数据集;
[0035]社会事件分类模块,用于将所述目标数据集输入社会事件分类模型,获取所述社会事件分类模型输出的所述目标数据集对应的社会事件分类结果;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种社会事件分类方法,其特征在于,包括:获取目标数据集;将所述目标数据集输入社会事件分类模型,获取所述社会事件分类模型输出的所述目标数据集对应的社会事件分类结果;其中,所述目标数据集包括图像集和文本集,所述图像集中的部分图像与所述文本集中的部分文本具有对应关系;所述社会事件分类模型,是基于样本数据集以及样本数据集对应的社会事件分类结果进行训练得到的;所述样本数据集包括样本图像集和样本文本集,所述样本图像集中的部分样本图像与所述样本文本集中的部分样本文本具有对应关系。2.根据权利要求1所述的社会事件分类方法,其特征在于,所述社会事件分类模型,包括:局部特征提取层、交叉特征提取层、潜在特征提取层以及社会事件分类层;相应地,所述将所述目标数据集输入社会事件分类模型,获取所述社会事件分类模型输出的所述目标数据集对应的社会事件分类结果,具体包括:将所述目标数据集输入所述局部特征提取层,获取所述局部特征提取层输出的所述目标数据集的局部特征表示;将所述目标数据集的局部特征表示分别输入所述交叉特征提取层和所述潜在特征提取层,获取所述交叉特征提取层输出的所述目标数据集的多模态表示,以及所述潜在特征提取层输出的所述目标数据集的潜在特征表示;将所述目标数据集的多模态表示和潜在特征表示输入所述社会事件分类层,获取所述社会事件分类层输出的所述目标数据集对应的社会事件分类结果。3.根据权利要求2所述的社会事件分类方法,其特征在于,所述潜在特征提取层,包括全局特征提取层、第一变分自编码器和第二变分自编码器;相应地,所述将所述目标数据集的局部特征表示输入所述潜在特征提取层,获取所述潜在特征提取层输出的所述目标数据集的潜在特征表示,具体包括:将所述目标数据集的局部特征表示输入所述全局特征提取层,获取所述全局特征提取层输出的所述图像集的全局特征表示和所述文本集的全局特征表示;将所述图像集的全局特征表示输入所述变分自编码器,由所述第一变分自编码器获取所述图像集中每一图像的潜在特征表示以及所述文本集中第一文本对应的虚拟图像的潜在特征表示,作为所述目标数据集的潜在特征表示中的所述图像集的潜在特征表示;将所述文本集的全局特征表示输入所述第二变分自编码器,由所述第二变分自编码器获取所述文本集中每一文本的潜在特征表示以及所述图像集中第一图像对应的虚拟文本的潜在特征表示,作为所述目标数据集的潜在特征表示中的所述文本集的潜在特征表示;其中,所述第一文本与所述图像集中任一图像不具有对应关系;所述第一图像与所述文本集中的任一文本不具有对应关系。4.根据权利要求3所述的社会事件分类方法,其特征在于,所述社会事件分类模型的损失函数包括分布对齐损失函数;所述分布对齐损失函数,是基于所述样本数据集中每一样本图像的预测潜在特征表示、每一样本文本的预测潜在特征表示、所述样本图像集中第一样本图像对应的虚拟样本文本的预测潜在特征表示以及所述样本数据集中第一样本文本对应的虚拟样本图像的...

【专利技术属性】
技术研发人员:徐常胜钱胜胜李章明
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1