基于制造技术

技术编号:39579182 阅读:13 留言:0更新日期:2023-12-03 19:29
基于

【技术实现步骤摘要】
基于ALBERT与中断BiLSTM的文本分类系统


[0001]本专利技术属于自然语言处理领域,具体涉及预训练语言模型和循环神经网络的文本分类模型


技术介绍

[0002]自然语言处理是人工智能
(Artificial Intelligence,AI)
的重要研究方向,主要研究对象为人类日常交流产生的语言文字,自然语言处理采用计算机模型或各类算法对文本数据进行处理,使机器能够正确理解人类语言,并能够通过语言自然地与人类进行交流

目前,自然语言处理技术在机器翻译

情感分析

语音识别

自动摘要

智能写作等多个任务上有着广泛的应用

文本分类
(Text Classification)
是自然语言处理领域的一项基础性研究,主要是指借助计算机将目标文档的标题或文本内容映射到预先划分的某一种或几种类别的过程

这个过程一般由经过训练后的模型来自动完成,模型能够对文本进行识别和分类,然后将文本划分到预定义标签

文本分类是推荐系统

智能问答

谣言检测等应用能够顺利实现的前提条件

[0003]由于互联网的飞速发展,人们在各类新兴社交网络平台上进行交互的行为使得文本数据信息呈指数级增加,从海量文本数据中挖掘具有深层价值的信息并加以利用对社会发展有着重要的意义

如今,处理文本任务最常用的方法是将文本用一个低维向量来表示,然后将向量输入
Softmax
分类器中计算类别概率

目前普遍使用的方法包括
CNN、RNN。CNN
具有位置不变性,能够抽取局部位置的关键短语信息
。RNN
可以对整个序列进行建模,能够擅长捕捉文本数据的长距离依赖关系,但是在对文本数据进行建模时,由于
RNN
模型中对于关键短语的表示依赖于所有之前时刻的循环神经单元,会导致文本中多次出现的关键短语的表示会随着时序的推移而产生变化,从而无法关注局部关键特征信息


技术实现思路

[0004]为了解决现有文本分类中文本中多次出现的关键短语的表示会随着时序的推移而产生变化而无法关注局部关键特征信息的问题,本专利技术提出如下技术方案:一种基于
ALBERT
与中断
BiLSTM
的文本分类系统,其特征在于,包括文本表示层
、DBLSTM


池化层和注意力层,其中:
[0005]文本表示层,通过
ALBERT
预训练模型获得文本数据的动态词向量表示,将动态词向量表示作为
DBLSTM
层的输入;
[0006]DBLSTM
层,通过
DBLSTM
模型提取动态词向量表示的局部信息和全局信息特征,每次按照固定步长对输入的动态词向量表示进行学习训练,得到数据的隐状态特征向量,并将状态特征向量作为池化层的输入;
[0007]池化层,对
DBLSTM
模型输出的隐状态特征向量进行降维,提取前
K
个重要信息和位置不变的文本的特征信息,将文本的特征信息作为注意力层的输入;
[0008]注意力层,对文本的特征信息进行加权求和,得到文本特征向量;
[0009]全连接层,将注意力层输出的文本特征向量通过
Softmax
分类器获得预测的分类

[0010]进一步的,
ALBERT
预训练语言模型由
Transformer
的编码器组成,通过多层双向
Transformer
编码器结构将文本数据集成,根据上下文信息得到当前词的词向量

[0011]进一步的,
DBLSTM
层将所述动态词向量经过前向
LSTM
进行处理,然后经过后向
LSTM
处理,最后将两个方向得到的各个时刻的隐藏状态进行合并输出,双向长短期记忆网络的输出计算过程如公式
(3)

(5)
所示:
[0012][0013][0014][0015]其中,和分别为
t
时刻前向和后向
LSTM
输出的隐状态;
w
t

t
时刻
LSTM
的输入向量;
h
t
为最终的输出向量;表示向量拼接;
[0016]使用
BiLSTM
模型作为中断循环神经单元,得到每一步的上下文表示,将中断机制引入
BiLSTM
模型中得到中断双向长短期记忆网络模型
DBLSTM
模型,
DBLSTM
模型阻断
BiLSTM
的信息流动,将
BiLSTM
的信息传输从中间断开,设置每
k

BiLSTM
循环单元为一组,最大传输步长限制为一个固定数值
k
,使得
t
时刻的隐状态只依赖于其所在分组中的其他
k
‑1个词和当前词;
[0017]每个上下文特征向量是一个文本片段的表示,相同的文本片段其特征向量也相同,
BLSTM
模块通过限制
BiLSTM
的信息流传输距离,将
CNN
模型的位置不变性引入
BiLSTM
中,使模型在捕获长距离依赖信息的同时,获取到局部关键短语的信息,
DBLSTM
模型在
t
时刻的隐藏层状态如公式
(6)
所示:
[0018]h
t

BiLSTM(x
t
,x
t
‑1,x
t
‑2,

,x
t

k+1
) (6)
[0019]k
的取值为
15
,通过
DBLSTM
模型表示一维卷积神经网络,其中,将
DBLSTM
模型表示的一维卷积神经网络的
CNN
模型的卷积核替换为
BiLSTM
循环单元,最大传输步长
k
作为
CNN
卷积核的窗口大小,在
CNN
模型中,模型参数量随着卷积核窗口大小的增加而增加,
DBLSTM
模块在不增加参数量的情况下可任意改变最大传输步长
k
的大小,窗口向量
c
t
如公式
(7)
所示:
[0020]c本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
ALBERT
与中断
BiLSTM
的文本分类系统,其特征在于,包括文本表示层
、DBLSTM


池化层和注意力层,其中:文本表示层,通过
ALBERT
预训练模型获得文本数据的动态词向量表示,将动态词向量表示作为
DBLSTM
层的输入;
DBLSTM
层,通过
DBLSTM
模型提取动态词向量表示的局部信息和全局信息特征,每次按照固定步长对输入的动态词向量表示进行学习训练,得到数据的隐状态特征向量,并将状态特征向量作为池化层的输入;池化层,对
DBLSTM
模型输出的隐状态特征向量进行降维,提取前
K
个重要信息和位置不变的文本的特征信息,将文本的特征信息作为注意力层的输入;注意力层,对文本的特征信息进行加权求和,得到文本特征向量;全连接层,将注意力层输出的文本特征向量通过
Softmax
分类器获得预测的分类
。2.
根据权利要求1所述的基于
ALBERT
与中断
BiLSTM
的文本分类方法,其特征在于,
ALBERT
预训练语言模型由
Transformer
的编码器组成,通过多层双向
Transformer
编码器结构将文本数据集成,根据上下文信息得到当前词的词向量
。3.
根据权利要求1所述的基于
ALBERT
与中断
BiLSTM
的文本分类方法,其特征在于,
DBLSTM
层将所述动态词向量经过前向
LSTM
进行处理,然后经过后向
LSTM
处理,最后将两个方向得到的各个时刻的隐藏状态进行合并输出,双向长短期记忆网络的输出计算过程如公式
(3)

(5)
所示:所示:所示:其中,和分别为
t
时刻前向和后向
LSTM
输出的隐状态;
w
t

t
时刻
LSTM
的输入向量;
h
t
为最终的输出向量;表示向量拼接;使用
BiLSTM
模型作为中断循环神经单元,得到每一步的上下文表示,将中断机制引入
BiLSTM
模型中得到中断双向长短期记忆网络模型
DBLSTM
模型,
DBLSTM
模型阻断
BiLSTM
的信息流动,将
BiLSTM
的信息传输从中间断开,设置每
k

BiLSTM
循环单元为一组,最大传输步长限制为一个固定数值
k
,使得
t
时刻的隐状态只依赖于其所在分组中的其他
k
‑1个词和当前词;每个上下文特征向量是一个文本片段的表示,相同的文本片段其特征向量也相同,
BLSTM
模块通过限制
BiLSTM
的信息流传输距离,将
CNN
模型的位置不变性引入
BiLSTM
中,使模型在捕获长距离依赖信息的同时,获取到局部关键短语的信息,
DBLSTM
...

【专利技术属性】
技术研发人员:刘颖袁学刚
申请(专利权)人:大连民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1