当前位置: 首页 > 专利查询>浙江大学专利>正文

一种多价值链问题文本分类方法和装置制造方法及图纸

技术编号:35188071 阅读:12 留言:0更新日期:2022-10-12 18:01
本发明专利技术涉及文本分类技术领域,特别是指一种多价值链问题文本分类方法和装置,方法包括:对企业里各业务检索平台中用户检索的问句进行收集与文本类别标签标注,得到多价值链问题文本的数据集;将所述问题文本数据集进行预处理,将预处理后的问题文本数据集划分为训练文本集与测试文本集;对所述训练文本集与所述测试文本集进行词向量提取,基于所述训练文本集,用提取后的词向量与标注的文本类别标签,构建全连接网络图;基于所述全连接网络图,对初始标签图注意力模型进行训练,得到训练完毕的标签图注意力模型;基于所述训练文本集提取的词向量,对初始文本语义抽取模型进行训练,得到训练完毕的文本语义抽取模型;根据训练完毕的文本语义抽取模型,对所述测试文本集进行语义抽取,根据训练完毕的标签图注意力模型,对所述测试文本集进行分类。采用本发明专利技术,可以实现多价值链问题文本的智能分类。实现多价值链问题文本的智能分类。实现多价值链问题文本的智能分类。

【技术实现步骤摘要】
一种多价值链问题文本分类方法和装置


[0001]本专利技术涉及文本分类
,特别是指一种多价值链问题文本分类方法和装置。

技术介绍

[0002]在多价值链中各企业协同工作、数据共享平台的不断自我更新下,越来越多的企业建立了自己的知识库,存储了在企业经营、生产、销售等方面重要的知识和经验,而智能问答系统随之被开发,用于企业工作人员对知识库的检索,而企业工人往往倾向于使用自然语言进行查询想要的知识,因此对问句进行分类是在多价值链智能问答系统构建里的重要一环,对于智能问答系统服务有重要的推进作用。
[0003]文本分类的核心问题是文本表示与分类模型。传统的文本表示利用词袋原理(Bag

of

Words),将词无序地表示到一个高维的向量空间模型(Vector Space Model)中,丢弃了词序、语法等文本结构信息。传统的机器学习文本分类模型基于分类服从某种概率分布的假设,利用贝叶斯理论获取分类器,但是一旦假设不成立则会影响分类准确率。

技术实现思路

[0004]本专利技术提供了一种多价值链问题文本分类方法和装置,用以实现多价值链问题文本的智能分类。
[0005]所述技术方案如下:
[0006]一方面,提供了一种多价值链问题文本分类方法,该方法包括:
[0007]S1、对企业里各业务检索平台中用户检索的问句进行收集与文本类别标签标注,得到多价值链问题文本的数据集;
[0008]S2、将所述问题文本数据集进行预处理,将预处理后的问题文本数据集划分为训练文本集与测试文本集;
[0009]S3、对所述训练文本集与所述测试文本集进行词向量提取,基于所述训练文本集,用提取后的词向量与标注的文本类别标签,构建全连接网络图;
[0010]S4、基于所述全连接网络图,对初始标签图注意力模型进行训练,得到训练完毕的标签图注意力模型;
[0011]S5、基于所述训练文本集提取的词向量,对初始文本语义抽取模型进行训练,得到训练完毕的文本语义抽取模型;
[0012]S6、根据训练完毕的文本语义抽取模型,对所述测试文本集进行语义抽取,根据训练完毕的标签图注意力模型,对所述测试文本集进行分类。
[0013]可选地,所述S2中的对所述问题文本数据集进行预处理,包括:
[0014]对所述问题文本数据集进行中文分词处理和去掉停用词处理;
[0015]其中,所述中文分词处理以及停用词过滤处理包括:
[0016]基于预先构建的多价值链文本专家词典对所述文本进行分词,采用大颗粒度词语
数目最大化的原则,确定分词结果;其中,所述文本为问题文本数据集;
[0017]基于预先构建的多价值链停用词词典对停用词进行过滤,去除噪声字词。
[0018]可选地,所述S3中的对预处理后的所述训练文本集与测试文本集进行词向量提取,并基于所述训练文本集,用提取后的词向量与标注的文本类别标签,构建全连接网络图,包括:
[0019]基于预训练的BERT词向量提取模型,得到预处理后的训练文本集与测试文本集的词向量;
[0020]基于训练文本集,用提取后的词向量与标注的文本类别标签分别作为节点,构建所有节点间全连接的全连接网络图,其中,所述文本类别标签代表的节点初始化为随机向量,维度与词向量维度一致,词向量节点间的边权重随机初始化,类别

词节点间的边权重初始化为所述训练文本集中该词在该类别中出现的概率。
[0021]可选地,所述S4中基于全连接网络图,训练初始标签图注意力模型为GNN

Attention模型,所述GNN

Attention模型包括GNN子模型与Attention子模型;
[0022]所述GNN子模型用于得到每个类别标签节点的输出特征;
[0023]所述Attention子模型用于控制在GNN子模型中的节点间的注意力权重分配。
[0024]可选地,所述GNN

Attention模型的训练过程包括:
[0025]根据下述公式(2)对GNN

Attention模型中节点的特征向量进行迭代更新;
[0026][0027]其中,σ0表示sigmoid激活函数,W
k
表示GNN第k次迭代时的参数矩阵,k∈[1,K],其中K∈R
+
,K>1,为预设的常数,N(v)表示节点v的所有邻居节点,|N(v)|表示N(v)的大小,表示第k

1次迭代时节点u的特征向量,是节点v在第k

1次迭代时的特征向量,是第k次迭代时节点v的输出向量,B
k
是第k次迭代时的偏置参数,k为1表示第一次迭代,所有参数都随机初始化。α
vu
表示节点u和节点v之间的注意力权重,定义如下述公式(3)表示;
[0028][0029]其中,e
vu
定义如下述公式(4)得到;
[0030][0031]其中,a表示一种计算注意力权重的函数;
[0032]所定义损失函数为类均衡标签相似度损失函数,如下述公式(5):
[0033][0034]其中m表示将整个训练文本集分成的批次的数量,b表示批次的下标,n
b
表示下标为b的批次里训练文本的数量,i表示某一批次内训练文本的下标,L表示类别标签的总个数,s
j
表示第j个标签出现在整个训练文本集里的频次,g
b
(i)表示在下标为b的批次里下标
为i的训练文本对应的类别标签,z
b
(i)表示在下标为b的批次里下标为i的训练文本在全连接图中对应的节点下标,z
b
(g
b
(i))表示类别标签g
b
(i)在全连接图中所对应的节点下标,W
c
表示对训练文本节点进行线性变换的参数矩阵,W
l
表示对标签节点进行线性变换的参数矩阵,K为前述的迭代的总次数;
[0035]根据上述类均衡标签相似度损失函数,采用批量梯度下降算法对GNN

Attention模型中的参数进行更新,得到训练完毕的标签图注意力模型。
[0036]可选地,所述S5中基于训练文本集提取的词向量,训练的初始文本语义抽取模型为Bi

LSTM模型;
[0037]根据下述公式(6)对Bi

LSTM子模型进行训练;
[0038][0039]其中,N表示训练文本集的句子个数,y
i
表示第i个句子的分类标签向量,用独热编码表示,p
i
表示第i个句子的最终输出的概率分布,定义如下述公式(7)表示;
[0040]p
i
=Softmax(z)
……
(7)
...

【技术保护点】

【技术特征摘要】
1.一种多价值链问题文本分类方法,其特征在于,所述方法包括:S1、对企业里各业务检索平台中用户检索的问句进行收集与文本类别标签标注,得到多价值链问题文本的数据集;S2、将所述问题文本数据集进行预处理,将预处理后的问题文本数据集划分为训练文本集与测试文本集;S3、对所述训练文本集与所述测试文本集进行词向量提取,基于所述训练文本集,用提取后的词向量与标注的文本类别标签,构建全连接网络图;S4、基于所述全连接网络图,对初始标签图注意力模型进行训练,得到训练完毕的标签图注意力模型;S5、基于所述训练文本集提取的词向量,对初始文本语义抽取模型进行训练,得到训练完毕的文本语义抽取模型;S6、根据训练完毕的文本语义抽取模型,对所述测试文本集进行语义抽取,根据训练完毕的标签图注意力模型,对所述测试文本集进行分类。2.根据权利要求1所述的方法,其特征在于,所述S2中的对所述问题文本数据集进行预处理,包括:对所述问题文本数据集进行中文分词处理和去掉停用词处理;其中,所述中文分词处理以及停用词过滤处理包括:基于预先构建的多价值链文本专家词典对所述文本进行分词,采用大颗粒度词语数目最大化的原则,确定分词结果;其中,所述文本为问题文本数据集;基于预先构建的多价值链停用词词典对停用词进行过滤,去除噪声字词。3.根据权利要求1所述的方法,其特征在于,所述S3中的对预处理后的所述训练文本集与测试文本集进行词向量提取,并基于所述训练文本集,用提取后的词向量与标注的文本类别标签,构建全连接网络图,包括:基于预训练的BERT词向量提取模型,得到预处理后的训练文本集与测试文本集的词向量;基于训练文本集,用提取后的词向量与标注的文本类别标签分别作为节点,构建所有节点间全连接的全连接网络图,其中,所述文本类别标签代表的节点初始化为随机向量,维度与词向量维度一致,词向量节点间的边权重随机初始化,类别

词节点间的边权重初始化为所述训练文本集中该词在该类别中出现的概率。4.根据权利要求1所述的方法,其特征在于,所述S4中基于全连接网络图,训练初始标签图注意力模型为GNN

Attention模型,所述GNN

Attention模型包括GNN子模型与Attention子模型;所述GNN子模型用于得到每个类别标签节点的输出特征;所述Attention子模型用于控制在GNN子模型中的节点间的注意力权重分配。5.根据权利要求4所述的方法,其特征在于,所述GNN

Attention模型的训练过程包括:根据下述公式(2)对GNN

Attention模型中节点的特征向量进行迭代更新;其中,σ0表示sigmoid激活函数,W
k
表示GNN第k次迭代时的参数矩阵,k∈[1,K],其中K∈
R
+
,K>1,为预设的常数,N(v)表示节点v的所有邻居节点,|N(v)|表示N(v)的大小,表示第k

1次迭代时节点u的特征向量,是节点v在第k

1次迭代时的特征向量,是第k次迭代时节点v的输出向量,B
k
是第k次迭代时的偏置参数,k为1表示第一次迭代,所有参数都随机初始化;α
vu
表示节点u和节点v之间的注意力权重,定义如下述公式(3)表示;其中,e
vu
定义如下述公式(4)得到;其中,a表示一种计算注意力权重的函数;所定义损失函数为类均衡标签相似度损失函数,如下述公式(5):其中m表示将整个训练文本集分成的批次的数量,b表示批次的下标,n
b
表示下标为b的批次里训练文本的数量,i表示某一批次内训练文本的下标,L表示类别标签的总个数,s
j
表示第j个标签出现在整个训练文本集里的频次,g
b
(i)表示在下标为b的批次里下标为i的训练文本对应的类别标签,z
b
(i)表示在下标为b的批次里下标为i的训练文本在全连接图中对应的节点下标,z
b
(g
b
(i))表示类别标签g
b
(i)在全连接图中所对应的节点下标,W
c
表示对训练文本节点进行线性变换的参数矩阵,W
l
表示对标签节点进行线性变换的参数矩阵,K为前述的迭代的总次数;根据上述类均衡标签相似度损失函数,采用批量梯度下降算法对GNN

...

【专利技术属性】
技术研发人员:覃博马祖扬
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1