一种基于多显示图注意力网络模型的文本分类方法技术

技术编号:39509296 阅读:10 留言:0更新日期:2023-11-25 18:44
本发明专利技术公开了一种基于多显示图注意力网络模型的文本分类方法,该方法基于多显示图注意力网络模型架构,能全面提取文本中的复杂信息并进行特征学习,捕获文本的语法

【技术实现步骤摘要】
一种基于多显示图注意力网络模型的文本分类方法


[0001]本专利技术属于文本分类
,具体涉及一种基于多显示图注意力网络模型的文本分类方法


技术介绍

[0002]本分类任务可以大概描述为利用特定算法把文本按照一定的规则分门别类

可以应用于情感分析

新闻分类

医疗诊断

问答系统

对话行为分类

自然语言推理等多个领域当中

[0003]在先前的文本分类任务中捕捉词语之间的高阶互动存在局限性

例如,可能会因为近距离单词组合的表面意思而误解它在整个文本中的正确表达意思,如:“let your hair down”,图神经网络
(GNN)
可能会将其误以为是“把头发放下”,而其真正含义是“放松一下”,进而对整个文本进行误判

此外,现有的基于图注意力网络
(GAT)
的方法没有充分地利用文本的句法信息,忽略了单词之间的句法结信息

在篇幅较长

结构较为复杂的文本中,为了能够更好的对文本进行表示学习,应该捕获更加丰富的信息,因此应该考虑更多的上下文信息,如语法

语义和句法

主题等信息

此外,以往的图神经网络衍生模型只是针对于节点内部,也就是信息聚合过程中节点与节点之间的边的不同重要性程度,却忽略了不同节点之间的重要性区别,节点之间的相关度没有被很好地利用起来
[0004]有鉴于此,如何在篇幅较长

结构较为复杂的文本中高效准确地进行文本分类,成为本行业中较为迫切的技术课题


技术实现思路

[0005]为达上述目的,本专利技术意在提供一种基于多显示图注意力网络模型的文本分类方法,该方法能从句法

语法

语义和主题等多个方面进行特征提取,在篇幅较长

结构较为复杂的文本中从不同的角度更加地全面捕捉文本信息

[0006]本专利技术的多显示图注意力网络模型为
multi

display GAT
,简称
MDGAT
,该模型主要由四个组件组成:输入层

多显示图的构建

图级表示学习

归纳文本分类

[0007]具体地,本专利技术所提供的该种基于多显示图注意力网络模型的文本分类方法,其具体包括以下步骤:
[0008]步骤
1、
构建输入层,具体包括以下步骤:
[0009]12、
基于给定的文章
D

{d1,
d2,
...

d
n
}
生成语料库,其中,
d
为文章
D
中的单词,
n
为文章
D
中单词的个数;
[0010]12、
对语料库进行分句处理,得到输入向量
X

{x1,
x2,
...

x
n
}
,其中,
x
为单词
d
对应的向量;
[0011]步骤
2、
构建多显示图
G
,该多显示图
G
包括对文本相似度图

文本超图

句法依存图和主题图,分别从句子结构

语法

语义

主题等多个角度来构建多个显示图
G
,具体包括以下步骤:
[0012]21、
构建文本相似度图
G1

(V

E)
,通过滑动窗口算法使用固定大小的滑动窗口来收集共现统计信息,采用点对点的相互信息方法来计算两个单词节点之间的权重,构建文本相似度图
G1

(V

E)
,其中,
V

{v1,
v2,
...

v
n
}
代表由单词表示的节点,
E

{e1,
e2,
...

e
n
}
代表两邻近单词之间的相似度,两个由单词表示的节点之间的相似度
e
ij
具体使用下述公式进行计算:
[0013][0014][0015][0016]其中,
#W(i)
是语料库中包含单词
i
的滑动窗口的数量,
#W(i,j)
是语料库中同时包含单词
i
和单词
j
的滑动窗口的数量,
#W
是语料库中滑动窗口的总数量;
[0017]22、
构建文本超图
G2

(V

ε
)
,其中
V

{v1,
v2,
...

v
n
}
代表由单词表示的节点,
ε

{
ε1,
ε

...

ε
n
}
代表由单词所在的句子表示的超边,具体使用下述公式进行计算:
[0018][0019]其中,
ε
i
表示有单词
i
所在的句子表示的超边,
ε
j
是任意一条超边;
[0020]23、
构建句法依存图
G3

(V

B)
,通过提取文本的句法依存关系构建句法依存图
G3

(V

E)
,以此来获得文本的句法信息,其中,
V

{v1,
v2,
...

v
n
}
代表由单词表示的节点,
B

{b1,
b2,
...

b
n
}
代表由节点
i
与节点
j
之间的依存关系表示的边,具体使用下述公式进行计算:
[0021][0022]其中,
N
total
(i,j)
表示单词
i
和单词
j
在整个语料库的同一句子中存在的次数,
...

【技术保护点】

【技术特征摘要】
1.
一种基于多显示图注意力网络模型的文本分类方法,其特征在于,该方法具体包括以下步骤:步骤
1、
构建输入层,具体包括以下步骤:
11、
基于给定的文章
D

{d1,
d2,
...

d
n
}
生成语料库,其中,
d
为文章
D
中的单词,
n
为文章
D
中单词的个数;
12、
对语料库进行分句处理,得到输入向量
X

{x1,
x2,
...

x
n
}
,其中,
x
为单词
d
对应的向量;步骤
2、
构建多显示图
G
,该多显示图
G
包括对文本相似度图

文本超图

句法依存图和主题图,分别从句子结构

语法

语义

主题等多个角度来构建多个显示图
G
,具体包括以下步骤:
21、
构建文本相似度图
G1

(V

E)
,通过滑动窗口算法使用固定大小的滑动窗口来收集共现统计信息,采用点对点的相互信息方法来计算两个单词节点之间的权重,构建文本相似度图
G1

(V

E)
,其中,
V

{v1,
v2,
...

v
n
}
代表由单词表示的节点,
E

{e1,
e2,
...

e
n
}
代表两邻近单词之间的相似度,两个由单词表示的节点之间的相似度
e
ij
具体使用下述公式进行计算:行计算:行计算:其中,
#W(i)
是语料库中包含单词
i
的滑动窗口的数量,
#W(i,j)
是语料库中同时包含单词
i
和单词
j
的滑动窗口的数量,
#W
是语料库中滑动窗口的总数量;
22、
构建文本超图
G2

(V

ε
)
,其中
V

{v1,
v2,
...

v
n
}
代表由单词表示的节点,
ε

{
ε1,
ε

...

ε
n
}
代表由单词所在的句子表示的超边,具体使用下述公式进行计算:其中,
ε
i
表示由单词
i
所在的句子表示的超边,
ε
j
是任意一条超边;
23、
构建句法依存图
G3

(V

B)
,通过提取文本的句法依存关系构建句法依存图
G3

(V

E)
,以此来获得文本的句法信息,其中,
V

{v1,
v2,
...

v
n
}
代表由单词表示的节点,
B

{b1,
b2,
...

b
n
}
代表由节点
i
与节点
j
之间的依存关系表示的边,具体使用下述公式进行计算:其中,
N
total
(i,j)
表示单词
i
和单词
j
在整个语料库的同一句子中存在的次数,
N
syn
(i,j)
表示单词
i
和单词
j
在语料库中所有句子上具有句法依赖关系的次数;
24、
构建主题图
G4

(V

S)
,计算出文本数据的相关主题词的概率分布,然后针对每个主题选取概率最大的前
k
个单词作构建主题集
T

{t1,
t2,
...

t
k
}
,以此来构建节点为主题
候选词文本的主题图
G4

(V

S)
,其中,
V

{v1,
v2,
...

v
n
}
代表由单词表示的节点,
S

{s1,
s2,
...

s
n
}
代表由节点与主题之间相关联的边,具体使用下述公式进行计算:其中,
s
ij
是节点
v
i
与主题
t
j
相关联的边,
t
j
是主题;
25、
进一步将上述文本相似度图
G1

(V

E)、
文本超图
G2

(V

ε
)、
句法依存图
G3

(V

B)
以及主题图
G4

(V

S)
的拓扑结构分别转换为对应的邻接矩阵
A
G
,具体使用下述公式进行计算:其中,
A
Gi
为上述各图
G
分别对应的矩阵化表示形式,
δ
为上述各图
G
分别需满足的条件,
b
ij
表示节点
i
与节点
j
之间相连的边;
26、
进一步将上述邻接矩阵
A
G
通过加权累加的方式进行融合,具体使用下述公式进行计算:其中,
N
为4,
W
i
表示
A
Gi
所对应的权重矩阵,
A
是上述邻接矩阵
A
G
的加权累加;步骤
3、
构建图级表示学习模块,在图注意力网络聚合机制上进一步实现多步信息聚合,具体包括以下步骤:
31、
将与目标节点
i
有边相连的所有节点
j
的邻居节点
k
聚合到节点
j
中得到多步邻居节点信息,然后将多步邻居节点信息与目标节点
i
的上一层信息做拼接操作,接着将拼接后的信息聚合到目标节点
i
中,通过多步骤的信息聚合机制最终获得节点集具体使用下述公式
(9)

(13)
进行计算:其中,
V
j
为节点
j
的邻居节点集,
v
k

V
j
中的某一节点,
Aggreate1
l
为多步邻居节点聚合的聚合函数,
Ag...

【专利技术属性】
技术研发人员:周子力王艳娜包新月高士亮安润鲁刘振超侯永泽
申请(专利权)人:曲阜师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1