一种基于句法和面部特征的图融合的多模态社交关系抽取模型制造技术

技术编号：40981571 阅读：2 留言：0更新日期：2024-04-18 21:27

本发明专利技术公开了一种基于句法和面部特征的图融合的多模态社交关系抽取模型。该方法在文本层面融入词性、依存边和依存标签三种句法信息，在图片层面使用Transformer来建模头尾实体面部的隐式关联信息。为了构建多模态图神经网络，将头尾实体对应的词向量最大池化成两个文本节点，对应的面部表征则设为两个视觉节点；同时每一个文本节点都与其它两个视觉节点相连，每一个视觉节点都与其它两个文本节点相连。接着利用跨模态注意力机制实现多模态特征的融合。此外，由于数据集中样本分布不均衡，大量社交关系类别对应的样本数稀少，本发明专利技术基于原型网络进行少样本学习。实验结果表明，该方法可以有效融入句法和面部特征，并通过多模态融合生成更高质量的文本向量。在少样本学习的各种实验设置下，模型分类准确率大幅领先其它基准方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及社交关系抽取任务，具体涉及一种基于句法和面部特征的图融合的多模态社交关系抽取模型。

技术介绍

1、与一般的关系抽取不同，对于社交中的人物，其照片的面部可以透露出许多信息，比如性别、年龄、表情等等。这些面部特征有助于识别两个人物的社交关系。2021年，wan等人在aaai上发布了文章《afew-shot learning based approach to multimodal socialrelation extraction》，他们构建了一份多模态社交关系抽取数据集并提供了基准模型，但是该模型较为简单，仅仅对文本表征和图片表征进行了拼接，没有充分融合文本表征和图片表征的特征信息。

2、本专利技术尝试在文本和图片编码上融入更多的特征信息，以此来提升模型性能。图1为多模态社交关系抽取实例。首先，对于文本模态，句法特征隐含了社交关系的一些特质。以图1为例，头部实体是“琥珀”，尾部实体是“贾母”。词性是容易被忽视的潜在提升点，动词“搀扶”暗示着动作双方年龄、身份地位差距较大。另外，veyseh等人的研究表明句法依存知识对关系抽取起到非常重要的作用。但是先前工作只利用了句法依存的关联边建立树结构，却没有考虑到关联边的标签特征。从图1可以注意到，与其它依存标签相比，“sbv”和“vob”区分度最高，直接将两个实体联系了起来，进一步帮助模型推测为“女佣”。因此理想的方法应该能显式建模上述句法信息。其次，对于图片模态，面部特征为社交关系分类提供了关键线索。从图1能够看出，两个人物均为女性，且“琥珀”的年龄明显比“贾母

技术实现思路

1、专利技术目的：基于现有技术的不足，一种基于句法和面部特征的图融合的多模态社交关系抽取模型。该模型针对社交场景下的文本和图片特点，建模句法和面部特征并进行多模态融合，从而提升关系抽取的性能。本专利技术的实验采用准确率(accuracy)作为关系抽取任务的评价指标，其值等于模型预测类别正确的样本数除以总测试样本数。

2、技术方案：一种基于句法和面部特征的图融合的多模态社交关系抽取模型。该模型框架主要由三个核心模块组成：(1)句法融入和图片捕捉层；(2)多模态特征融合层；(3)原型网络层。句法信息隐含了社交关系的一些特质，是容易被忽视的潜在提升点；同时，面部信息也为社交关系分类提供了关键线索。

3、对于文本模态，本专利技术使用bert预训练模型来获得每个单词的上下文表征：

4、w1，...，wn＝bert({x1，...，xn})

5、对于图片模态，本专利技术使用facenet该基网络来提取视觉向量：

6、vh＝facenet(oh)

7、vt＝facenet(ot)

8、其中，oh、oe是头尾实体的坐标点位置，vh、ve分别表示两个实体的脸部特征。

9、在句法融入层中，本专利技术集成三种句法来源：词性、依存边和依存标签：

10、

11、

12、

13、其中，es、ep、eτ分别表示词向量、词性嵌入表示和依存标签嵌入表示。

14、在图片捕捉层中，本专利技术使用transformer来建模头实体面部与尾实体面部的隐式依赖关系：

15、vl＝transformer(vl-1，vl-1，vl-1)

16、其中，v表示图片表征。

17、在多模态特征融合层中，本专利技术使用基于多模态图网络的跨模态注意力机制实现特征融合。在每一层中，通过模态间融合来更新所有的节点状态。以文本节点为例，其状态的计算如下：

18、

19、

20、其中，hx、hy分别表示文本节点表征和图片节点表征。

21、经过多轮的前向传播后，将头尾实体对应的两个文本节点表征拼接得到最终的多模态表征。

22、在原型网络层中，本专利技术首先对每个类计算一个原型中心：

23、

24、给出查询集中的一个样本qt＝(xt,ot)，为了预测出该样本的类别，原型网络计算它与支持集上n个聚类中心的欧式距离，并利用softmax得到n个类别的概率分布，选取概率最大的类别作为该样本的预测值：

25、

26、模型仍然采用多分类交叉熵损失函数作为优化目标：

27、

28、其中，t是训练样本的数量，n是支持集的类别数量。

29、文本句子最大输入长度为128，编码采用bert-base-chinese，总共12层transformer，自注意力的多头数量为12，词向量维度为768。图片编码采用facenet，视觉向量维度为2048。l1、l2、l3都设置成2层。模型训练的批大小为32，迭代次数为30000。模型参数使用adam优化器进行优化，初始学习率为1e-4。

30、有益效果：

31、1)本专利技术在文本层面融入了丰富的句法信息以及在视觉层面捕捉头尾实体面部的隐式关联。

32、2)本专利技术用基于多模态图网络的跨模态注意力机制实现特征融合，生成了高质量的文本表征。

33、3)本专利技术应用原型网络进行少样本学习，有效解决了各类样本分布不均衡的问题。

34、4)本专利技术使用的模型在多模态社交关系抽取任务方面有着良好的实验效果，具有较高的实用价值。

本文档来自技高网...

【技术保护点】

1.一种基于句法和面部特征的图融合的多模态社交关系抽取模型，其特征在于，该模型主要由三个核心模块组成：

2.根据权利要求1所述的一种基于句法和面部特征的图融合的多模态社交关系抽取模型，其特征在于，句法融入层中，词性、依存边和依存标签，计算方法如下：

3.根据权利要求2所述的一种基于句法和面部特征的图融合的多模态社交关系抽取模型，其特征在于，图片捕捉层中，使用Transformer来建模头实体面部与尾实体面部的隐式依赖关系，计算方法如下：

4.根据权利要求1所述的一种基于句法和面部特征的图融合的多模态社交关系抽取模型，其特征在于，多模态特征融合层中，采用多模态图网络的跨模态注意力机制实现特征融合，通过模态间融合来更新所有的节点状态，文本节点状态的计算公式如下：

5.根据权利要求1所述的一种基于句法和面部特征的图融合的多模态社交关系抽取模型，其特征在于，原型网络层中，原型网络在少样本学习上表现优异，其首先计算每个类别的聚类中心，即：

6.根据权利要求5所述的一种基于句法和面部特征的图融合的多模态社交关系抽取模型，其特征在于，

...

【技术特征摘要】

1.一种基于句法和面部特征的图融合的多模态社交关系抽取模型，其特征在于，该模型主要由三个核心模块组成：

3.根据权利要求2所述的一种基于句法和面部特征的图融合的多模态社交关系抽取模型，其特征在于，图片捕捉层中，使用transformer来建模头实体面部与尾实体面部的隐式依赖关系，计算方法如下：

4.根据权利要求1所述的一种基于句法和面部特征的图...

【专利技术属性】
技术研发人员：吴含前，李昕玮，寇雯茜，甘秉坤，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人