【技术实现步骤摘要】
基于层注意Transformer网络的长文档分类方法
[0001]本专利技术涉及基于层注意Transformer网络的长文档分类方法,属于用于自然语言处理领域中的长文档分类方法。
技术介绍
[0002]如今,由于数字和在线出版物的迅速增长,形成了一个典型的大数据时代。面对大规模的文献数据,研究人员进行了许多有价值的探索,如知识图构建、信息提取、引文关系研究和文献分类。作为自然语言处理的一项基本任务,文档分类在许多场景中发挥着重要作用,如个性化文档推荐、文档管理和文档分析。
[0003]早期的文档分类方法将文档建模为文本,并采用序列学习模型来提取其特征,如递归神经网络(RecurrentNeural Networks,RNNs)对输入文本的每个单词的词向量进行长期依赖捕获得到文本特征。此外,基于卷积神经网络(Convolutional Neural Networks,CNNs)的模型由于能够捕获文本图的多功能特征也实现了很优越的文档分类性能。其次,考虑到文本复杂的语义关系,一些基于图的学习模型也被提出,如文本图卷积网络 ...
【技术保护点】
【技术特征摘要】
1.基于层注意Transformer网络的长文档分类方法,其特征在于:该方法包括如下步骤,步骤一:提取节级别特征为了完全利用文档的结构信息;将给定的文档按照自身的段落顺序分成几个段落,将一个段落称为一个节;将文档表示为S={s1,...s
m
},其中s
i
表示的是第i个节,m表示每个文档所包含的节数量;首先通过预训练语言模型提取每个节的特征;SciBERT是在高质量、大规模的标签文档数据上预训练的语言模型,这些标签文档数据包含与实验中使用的长文档数据集相似的样本;将每个节输入预训练语言模型SciBERT来捕获文档的每个节的特征,这个过程可以被描述为:其中,f表示的是SciBERT,s
i
表示文档的第i个节,表示SciBERT要学习的模型参数;v
i
表示通过SciBERT获得的第i个节的特征;将这个模块定义为节内Transformer,通过节内Transformer获得单个文档的节级别特征Transformer获得单个文档的节级别特征m表示的是文档所包含的节数量,d表示的是SciBERT提取的节特征的维度;步骤二:节特征之间的交互节级别的特征表示每个节的语义信息;采用残差融合门代替残差块的N层Transformers,将这个模块命名为节间R
‑
Transformer;对于第n层Transformer,其中1≤n≤N;一个多头自注意层g
n
(
·
)和正则化首先被用于节级别特征,此过程可以表示为,o
n
=norm(g
n
(v
n
))其中v
n
表示输入第n层Transformer的节级别特征,norm表示正则化操作,o
n
表示经过第n层Transformer中的多头自注意层和正则化被更新得到的特征;为了混合节级别的局部和全局上下文特征,使用残差融合门动态地合并多头自注意的输入v
n
和输出o
n
;残差融合门的序列输出表示为如下公式,G1=sigmoid(W
g11
o
n
+W
g12
v
n
+b
g1
),e
n
=G1
⊙
v
n
+(1
‑
G1)o
n
其中,sigmoid是激活函数,W
g11
,W
g12
是第一个残差融合门的参数,b
g1
是偏差,
⊙
表示两个矩阵逐元素相乘;在得到残差融合门的输出e
n
之后,一个带有正则化操作的全连接层被用于e
n
,节级别间最终的特征交互通过另一个残差融合门实现,G2=sigmoid(W
g21
norm(f
n
(e
n<...
【专利技术属性】
技术研发人员:胡永利,陈普满,刘腾飞,尹宝才,孙艳丰,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。