一种融合图像信息的越汉跨语言新闻文本摘要方法技术

技术编号:39746515 阅读:9 留言:0更新日期:2023-12-17 23:45


【技术实现步骤摘要】
一种融合图像信息的越汉跨语言新闻文本摘要方法


[0001]本专利技术涉及融合图像信息的越汉跨语言新闻文本摘要方法,属于自然语言处理



技术介绍

[0002]随着信息技术的快速发展,图像在新闻传播和理解中的作用日益重要

然而,在跨语言新闻摘要中,仅局限于对文本信息的概括提取,而没有考虑到新闻常以图文的形式出现,在数据模态上特征提取上过于单一,限制了摘要的质量和准确性

为了解决这一问题,跨语言新闻摘要中融合图像信息的方法已经成为研究的焦点

近年来,许多学者开始致力于研究多模态跨语言摘要方法

这些方法旨在通过结合图像和文本的特征,来提高跨语言新闻摘要的效果

在传统的跨语言新闻摘要方法中,主要基于文本信息进行摘要生成,而图像信息往往被忽视

然而,图像能够提供丰富的视觉内容和上下文信息,能够为新闻摘要的生成提供重要辅助

因此,本文采用了图像编码器来提取图像特征,并与文本编码器进行融合,以获得更全面和准确的语义信息

以解决在跨语言新闻摘要中利用图像信息来弥补文本信息的不足问题


技术实现思路

[0003]本专利技术提供了一种融合图像信息的越汉跨语言新闻文本摘要方法,以用于解决在跨语言新闻摘要中利用图像信息来弥补文本信息的不足问题,获得更全面和准确的语义信息,生成的摘要具备更高的
ROUGE
分数
/>信息量

简洁度和流畅度

[0004]本专利技术的技术方案是:一种融合图像信息的越汉跨语言新闻文本摘要方法,所述方法的具体步骤如下:
[0005]Step1、
从互联网多个新闻网站上爬取越南语新闻文本及其对应新闻图像,并对其进行处理,构建越汉多模态跨语言摘要数据集;
[0006]Step2、
文本编码器负责将输入的越南语新闻文本转化为语义表征,捕捉关键信息和语义关联;
[0007]Step3、
图像编码器将输入的新闻图像转换为图像表征,提取图像中的视觉信息;
[0008]Step4、
图文对比损失通过最大化正样本相似性和最小化负样本相似性,将图像和文本之间的信息进行有效关联和整合;
[0009]Step5、
图文融合器将文本表征和图像表征进行融合,获取融合后的图文表征;通过充分捕获文本和图像之间的关联性,提取文本中的关键信息;
[0010]Step6、
摘要解码器使用融合后的图文特征作为输入,生成中文的摘要

[0011]进一步地,所述步骤
Step1
的具体步骤为:
[0012]Step1.1、
在多个新闻网站上爬取越南语新闻文本及其对应新闻图像初步构建了一个多模态单语摘要数据集,然后使用谷歌翻译将越南语摘要翻译为中文摘要;
[0013]Step1.2、
对构建的数据进行清洗,使用往返翻译策略,通过设置
ROUGE
得分的阈值
来过滤低质量翻译的摘要文本,并只保留新闻图片前三张

[0014]进一步地,所述步骤
Step2
的具体步骤:
[0015]Step2.1、
编码器输入序列为将
S
A
输入进行编码得到新闻序列的向量表征
W

{w1,w2,w3,...,w
E
}
,其中
S
代表越南语新闻文章,
E
为输入文本序列长度,表示在越南语新闻文章
A
上的第
E
个词,编码器的层数设置为
L
,最终得到文本输出
d
t
为特征维度;
[0016]Step2.2、
在文本的编码器端,采用自注意力机制来捕捉输入序列中的全局依赖关系,为每个输入元素赋予一个权重,这个权重由该元素与序列中所有其他元素的相关性决定;
[0017][0018]其中
Q

K

V
分别为查询
(query)
,键
(key)
,值
(value)

d
k
表示向量
K
的维度;
[0019]Step2.3、
再将每一个头拼接相连得到多头注意力机制;
[0020]MultiHead(Q,K,V)

Concat(head1,...,head
n
)
[0021]其中,
head
i

Attention(QW
iQ
,KW
iK
,VW
iV
)

W
iQ

W
iK

W
iV
是权重参数矩阵,
h
是注意力头的数量

[0022]进一步地,所述步骤
Step3
的具体步骤为:
[0023]Step3.1、
给定图像编码器输入序列为
I

{img1,img2,...,img
M
}
,其中
M
是指输入新闻图像的序列,使用
ViT
原始图像转换为图像嵌入,与文本嵌入一并作为图像编码器的输入;
[0024][0025]其中,
ViT
是将每张图像分成多个
patches
,将
2D
图像重塑为平坦的其中
(H,W)
是原始图像的分辨率,
C
是通道数,
(P

P)
是每个图像块的分辨率,以及
N

HW/P2为最终的
patches
数量,将这一连串的
patches
作为图像
tokenizer
的输入,完成图像
patches
处理后,还需要进行图像块嵌入操作,对每一个展平后的
patch
线性投影到
D
维,
E
pos
为位置编码,
E
为输入文本序列长度;
[0026]Step3.2、
将生成的
Z0序列作为
Transformer
编码器的输入:
[0027]Z
l+1

Transformer(Z
l
)

l
=1,2,
...

L
[本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
融合图像信息的越汉跨语言新闻文本摘要方法,其特征在于:所述方法的具体步骤如下:
Step1、
从互联网多个新闻网站上爬取越南语新闻文本及其对应新闻图像,并对其进行处理,构建越汉多模态跨语言摘要数据集;
Step2、
文本编码器负责将输入的越南语新闻文本转化为语义表征,捕捉关键信息和语义关联;
Step3、
图像编码器将输入的新闻图像转换为图像表征,提取图像中的视觉信息;
Step4、
图文对比损失通过最大化正样本相似性和最小化负样本相似性,将图像和文本之间的信息进行有效关联和整合;
Step5、
图文融合器将文本表征和图像表征进行融合,获取融合后的图文表征;通过充分捕获文本和图像之间的关联性,提取文本中的关键信息;
Step6、
摘要解码器使用融合后的图文特征作为输入,生成中文的摘要
。2.
根据权利要求1所述的融合图像信息的越汉跨语言新闻文本摘要方法,其特征在于:所述步骤
Step1
的具体步骤为:
Step1.1、
在多个新闻网站上爬取越南语新闻文本及其对应新闻图像初步构建了一个多模态单语摘要数据集,然后使用谷歌翻译将越南语摘要翻译为中文摘要;
Step1.2、
对构建的数据进行清洗,使用往返翻译策略,通过设置
ROUGE
得分的阈值来过滤低质量翻译的摘要文本,并只保留新闻图片前三张
。3.
根据权利要求1所述的融合图像信息的越汉跨语言新闻文本摘要方法,其特征在于:所述步骤
Step2
的具体步骤:
Step2.1、
编码器输入序列为将
S
A
输入进行编码得到新闻序列的向量表征
W

{w1,w2,w3,...,w
E
}
,其中
S
代表越南语新闻文章,
E
为输入文本序列长度,表示在越南语新闻文章
A
上的第
E
个词,编码器的层数设置为
L
,最终得到文本输出
d
t
为特征维度;
Step2.2、
在文本的编码器端,采用自注意力机制来捕捉输入序列中的全局依赖关系,为每个输入元素赋予一个权重,这个权重由该元素与序列中所有其他元素的相关性决定;其中
Q

K

V
分别为查询
(query)
,键
(key)
,值
(value)

d
k
表示向量
K
的维度;
Step2.3、
再将每一个头拼接相连得到多头注意力机制;
MultiHead(Q,K,V)

Concat(head1,...,head
n
)
其中,
head
i

Attention(QWi
iQ
,KW
iK
,VW
iV
)

W
iQ

W
iK

W
iV
是权重参数矩阵,
h
是注意力头的数量
。4.
根据权利要求1所述的融合图像信息的越汉跨语言新闻文本摘要方法,其特征在于:所述步骤
Step3
的具体步骤为:
Step3.1、
给定图像编码器输入序列为
I

{img1,img2,...,img
M
}
,其中
M
是指输入新闻图像的序列,使用
ViT
原始图像转换为图像嵌入,与文本嵌入一并作为图像编码器的输入;
其中,
ViT
是将每张图像分成多个
patches
,将
2D
图像重塑为平坦的
2D patches
其中
(H,W)
是原始图像的分辨率,
C
是通道数,
(P,P)
是每个图像块的分辨率,以及
N

HW/P2为最终的
patches
数量,将这一连串的
patches
作为图像
tokenizer
的输入,完成图像
patches
处理后,还需要进行图像块嵌入操作,对每一个展平后的
patch
线性投影到
D
维,
E
pos
为位置编码,
E
为输入文本序列长度;
Step3.2、
将生成的
Z0序列作为
Transformer
编码器的输入:
Z
l+1

Transformer(Z
l
)

l

1,2,...,L
其中
L

Transformer
模型中编码器的层数;再对输出向量进行全局最大池化操作
v
i

MaxPooling(Z
L
...

【专利技术属性】
技术研发人员:余正涛吴奇远谭凯文黄于欣
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1