基于双向长短期记忆层和全连接层的多模态分类模型制造技术

技术编号:34259368 阅读:25 留言:0更新日期:2022-07-24 13:28
本发明专利技术提供一种基于双向长短期记忆层和全连接层的多模态分类模型,包括S1:使用基于预训练模型获得图像特征,并将特征映射成一维向量;S2:使用多个全连接层以及丢弃率为0.1的Dropout层对步骤S1得到的特征进行处理;S3:将步骤S2处理得到的特征进行归一化进而得到最终的图像特征;该基于双向长短期记忆层和全连接层的多模态分类模型具有的优点如下:(1)使用预训练模型作为特征提取器,可以更换为具有更好特征表现的预训练模型。(2)使用简单的双向长短期记忆层和全连接层来对文字和图片特征进行处理和交互,使得模型可以完全利用图片和文字之间的信息,并对多模态信息进行深入的交叉感知。交叉感知。交叉感知。

Multimodal classification model based on bidirectional long-term and short-term memory layer and full connection layer

【技术实现步骤摘要】
基于双向长短期记忆层和全连接层的多模态分类模型


[0001]本专利技术具体涉及一种基于双向长短期记忆层和全连接层的多模态分类模型。

技术介绍

[0002]表情包一般源于创作者的经历、现象级电视剧/动漫、某种流行趋势和文化等,天然带有社交属性和互联网属性。相对于纯文本而言,表情包因其诙谐的图片内容以及应景的文字描述深得互联网用户喜爱,但表情包蕴含的一些仇恨信息很难被发现。现在互联网社交媒体缺乏对表情包以及图片的监控,传统的方法是用户举报,然后工作人员核实,不仅浪费人力还浪费时间。现有的方法一般是基于文字的或者是基于图片的。基于文字的方法是通过提取图片或者表情包中的文字,建立这些文字的词典或者用预训练模型进行分词并转化为句子向量,然后将其输入到各种神经网络,比如基于注意力机制的Transformer,进行分类。而基于图像的分类则是通过卷积神经网络等模型获取图片的高维特征然后放入全连接层进行分类。而表情包中,由于单独的文本或图片的语义是截断的,即二者缺一所表达的意思就可能改变。基于图片的卷积神经网络无法识别图片中的文字特征,基于文本的模型又缺乏图片特本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于双向长短期记忆层和全连接层的多模态分类模型,其特征在于,包括如下步骤:S1:使用基于预训练模型获得图像特征,并将特征映射成一维向量;S2:使用多个全连接层以及丢弃率为0.1的Dropout层对步骤S1得到的特征进行处理;S3:将步骤S2处理得到的特征进行归一化进而得到最终的图像特征;S4:使用预训练模型得到输入文本的特征矩阵,并使用具有不同卷积核大小的多个一维卷积层对特征矩阵进行处理;步骤S5:通过双向长短期记忆层和层归一化层增加步骤S4获得的张量的句子...

【专利技术属性】
技术研发人员:庄岩黄和金洪峰杨涵王岩张彦如
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1