一种融合中文词性信息和相互学习的短文本分类方法技术

技术编号:39817995 阅读:10 留言:0更新日期:2023-12-22 19:37
本发明专利技术公开了一种融合中文词性信息和相互学习的短文本分类方法,该方法由一个仅使用字向量信息的

【技术实现步骤摘要】
一种融合中文词性信息和相互学习的短文本分类方法


[0001]本专利技术涉及中文短文本分类领域,尤其涉及一种融合中文词性信息和相互学习的短文本分类方法


技术介绍

[0002]在互联网飞速发展的今天,如何快速的从网上海量的信息中获取所需要的信息,变得尤为重要

在浏览海量信息时,标题信息是判别该网页与用户需求相关度的重要依据

然而,标题分类作为短文本分类的一个重要分支,存在篇幅较短,信息量偏少等问题

因此,短文本分类模型仍需要进行更深入地研究与探索

[0003]短文本分类是一个高度复杂的计算过程,因为计算机无法识别文字信息,因此需要将文字信息转化为向量模式才能进行计算

同时,因为短文本中信息少,利用相互学习的方式,使得单个模型能够获取其他更优模型的概率分布,以此来扩大模型的信息量

本专利技术选择使用
BERT
神经网络作为相互学习中的两个学生网络,
BERT

Google

2018
年提出的一种预训练语言模型

该模型基于
Transformer
模型的
encoder
部分,其不仅可以作为预训练模型,同时可以用于处理文本分类等自然语言处理任务
。BERT
在提出之后便成功地在
11

NLP
任务中取得优异的成绩,由此可以看出
BERT
在自然语言处理领域有着较高的性能,适合于工程应用

为弥补短文本信息量偏少的缺陷,本专利技术使用两个学生网络交互学习,其中一个网络仅使用常规的字向量信息,另一个网络融合使用字向量信息和词性信息,并集成
KL

JS
两种散度构造模型的损失评价函数


技术实现思路

[0004]本专利技术要解决的技术问题在于针对现有技术中的缺陷,提供一种融合中文词性信息和相互学习的短文本分类方法,算法包含一个仅使用字向量信息的
BERT
和一个融合字向量信息和词性信息的
BERT
,引入
TF
控制两个
BERT
间的信息传递,并集成
KL

JS
两种散度构造模型的损失评价函数

[0005]本专利技术解决其技术问题所采用的技术方案是:
[0006]本专利技术提供一种融合中文词性信息和相互学习的短文本分类方法,该方法包括以下步骤:
[0007]S1、
确定
BERT
神经网络的参数,包括:
Transformer block
个数,字
/
词性向量维度和批次数;
[0008]S2、
初始化超参数,包括:学生网络
Θ
1,t

Θ
2,t
各层初始值,学习率
lr
,传输标志
TF
;初始化两个学生网络的训练集结果分别为
x1=0和
x2=0,测试结果为
y1=0和
y2=0;学生网络
Θ
1,t

Θ
2,t
软标签
SoftL1和
SoftL2为
None
;学生网络
Θ
1,t

Θ
2,t
预测的概率分布
S1和
S2为
None

[0009]S3、
比较学生网络
Θ
2,t
的训练结果
x2是否大于等于
TF
,同时学生网络
Θ
2,t
的测试结果
y2是否大于学生网络
Θ
1,t
的测试结果
y1,如果满足条件则更新
SoftL1为
S2;
[0010]S4、
将输入的中文短文本转化为向量形式,并在句向量前后添加
[CLS]和
[SEP]标签对应的标签向量,得到学生网络
Θ
1,t
的输入向量;
[0011]S5、
对输入向量添加位置信息;
[0012]S6、
使用
BERT
神经网络进行计算,得到输出向量
Output

[0013]S7、
对输出向量
Output
进行平均池化,将
Output
从高维度转化为1维行向量的形式,得到平均池化后的句向量
P_Output

[0014]S8、

P_Output
进行线性变换,线性变换后得到
LP
向量;
[0015]S9、
使用
Tanh
函数对线性变换得到的
LP
向量中的神经元进行激活,得到最终的句向量表示
Sentence_vec

[0016]S10、
对最终得到的句向量进行线性变换,将句向量从
k
维向量转化为与标签类别个数相同维数的
Logits
向量;
[0017]S11、
使用
softmax
函数进行归一化,得到长度为
l
的概率分布
S
,以此作为分类依据;
[0018]S12、
采用
KL
散度作为硬损失指标衡量硬标签和预测值之间的匹配度,采用
JS
散度作为软损失指标衡量软标签和预测值之间的匹配度,并计算完整的损失函数,
[0019]S13、
依照获得
MAF1
分数作为评价指标;
[0020]S14、
使用
MAF1
分数的公式计算本轮次训练集
train_score
和测试集结果
test_socre

[0021]S15、
使用
AdamW
优化器对
Θ
1,t
的参数进行优化;
[0022]S16、
更新学生网络
Θ
1,t
的预测概率分布
S1、
训练集结果
x1和测试集结果
y1;
[0023]S17、
比较学生网络
Θ
1,t+1
的训练结果
x1是否大于等于
TF
,同时学生网络
Θ
1,t+1
的测试集结果
y1是否大于学生网络
Θ
2,t
的测试集结果本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种融合中文词性信息和相互学习的短文本分类方法,其特征在于,该方法包括以下步骤:
S1、
确定
BERT
神经网络的参数,包括:
Transformer block
个数,字
/
词性向量维度和批次数;
S2、
初始化超参数,包括:学生网络
Θ
1,t

Θ
2,t
各层初始值,学习率
lr
,传输标志
TF
;初始化两个学生网络的训练集结果分别为
x1=0和
x2=0,测试结果为
y1=0和
y2=0;学生网络
Θ
1,t

Θ
2,t
软标签
SoftL1和
SoftL2为
None
;学生网络
Θ
1,t

Θ
2,t
预测的概率分布
S1和
S2为
None

S3、
比较学生网络
Θ
2,t
的训练结果
x2是否大于等于
TF
,同时学生网络
Θ
2,t
的测试结果
y2是否大于学生网络
Θ
1,t
的测试结果
y1,如果满足条件则更新
SoftL1为
S2;
S4、
将输入的中文短文本转化为向量形式,并在句向量前后添加
[CLS]

[SEP]
标签对应的标签向量,得到学生网络
Θ
1,t
的输入向量;
S5、
对输入向量添加位置信息;
S6、
使用
BERT
神经网络进行计算,得到输出向量
Output

S7、
对输出向量
Output
进行平均池化,将
Output
从高维度转化为1维行向量的形式,得到平均池化后的句向量
P_Output

S8、

P_Output
进行线性变换,线性变换后得到
LP
向量;
S9、
使用
Tanh
函数对线性变换得到的
LP
向量中的神经元进行激活,得到最终的句向量表示
Sentence_vec

S10、
对最终得到的句向量进行线性变换,将句向量从
k
维向量转化为与标签类别个数相同维数的
Logits
向量;
S11、
使用
softmax
函数进行归一化,得到长度为
l
的概率分布
S
,以此作为分类依据;
S12、
采用
KL
散度作为硬损失指标衡量硬标签和预测值之间的匹配度,采用
JS
散度作为软损失指标衡量软标签和预测值之间的匹配度,并计算完整的损失函数,
S13、
依照获得
MAF1
分数作为评价指标;
S14、
使用
MAF1
分数的公式计算本轮次训练集
train_score
和测试集结果
test_socre

S15、
使用
AdamW
优化器对
Θ
1,t
的参数进行优化;
S16、
更新学生网络
Θ
1,t
的预测概率分布
S1、
训练集结果
x1和测试集结果
y1;
S17、
比较学生网络
Θ
1,t+1
的训练结果
x1是否大于等于
TF
,同时学生网络
Θ
1,t+1
的测试集结果
y1是否大于学生网络
Θ
2,t
的测试集结果
y2;如果满足条件则更新
SoftL1为
S1;
S18、
将输入的中文短文本将转化为向量形式,得到学生网络
Θ
1,t
的输入向量;
S19、
将输入向量
Input
作为输入,重复步骤
S4

S14
的工作;并使用
AdamW
优化器对
Θ
2,t
的参数进行优化;
S20、
更新学生网络
Θ
2,t
的预测概率分布
S2、
训练集结果
x2和测试集结果
y2;
S21、
轮次
t

t+1
,若没到停止轮次,返回
S3
继续;若到停止轮次,则停止循环,输出分类结果
。2.
根据权利要求1所述的融合中文词性信息和相互学习的短文本分类方法,其特征在于,所述步骤
S4
的方法包括:得到学生网络
Θ
1,t
的输入向量为:
Input

Input_BERT
其中,
s_len
表示句子长度,
w1,
w2,


w
s_len
表示句子中每个字所对应的字向量,表示句子中第一个词的词向量,表示句子中最后一个词的词向量
。3.
根据权利要求2所述的融合中文词性信息和相互学习的短文本分类方法,其特征在于,所述步骤
S5
的方法包括:首先根据位置公式初始化位置信息:其中,
wp
表示字向量所在的位置,
k
表示字向量的维度,
n
表示当前所在维度;将字向量所在的位置代入位置信息公式,得到位置变量为:
T_Input

Input+Positionals
其中,
pos1,
pos2,


pos
s
_
len+2
表示每个位置对应的位置向量
。4.
根据权利要求3所述的融合中文词性信息和相互学习的短文本分类方法,其特征在于,所述步骤
S6
的方法包括:使用
BERT
神经网络进行计算,得到输出向量
Output

o
[CLS]
,o
[SEP]
,o
n
∈R1×
k
,n

1,...,s_len
其中,
s_len
表示句子长度,
o1,
o2,


o
s_len
表示句子中每个字经过模型运算后得到的字向量,和分别表示句子中第一个词和最后一个词经过模型运算后得到的词向量

所述步骤
S7
的方法...

【专利技术属性】
技术研发人员:戴祖旭邓轶赫
申请(专利权)人:武汉宜安科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1