多标签文本分类方法及装置制造方法及图纸

技术编号:39511865 阅读:14 留言:0更新日期:2023-11-25 18:48
本发明专利技术公开了一种多标签文本分类方法及装置,该方法包括:获取已知标签类别的多个文本,构建训练集和测试集;将训练集中的每个文本和多个标签类别,输入

【技术实现步骤摘要】
多标签文本分类方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种多标签文本分类方法及装置


技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文

此处的描述不因为包括在本部分中就承认是现有技术

[0003]单标签文本分类任务是指给定一个文本,判断它属于哪一个预定义的类别,例如新闻类别

情感分析等

多标签文本分类任务是指给定一个文本,判断它属于哪些预定义的类别,例如商品标签

话题标签等;每个文本可以有多个标签类别,例如一篇商品评论可以同时包含价格

质量

服务等不同的标签

[0004]现有技术在通过训练分类模型进行多标签文本分类的过程中,存在以下缺陷:
1.
没有考虑到待分类文本与各标签类别之间的关联;
2.
没有考虑到各标签类别之间的共现性

多标签分类任务不同于单标签,标签之间存在共现性,某些标签组合高频出现,而某些组合则从不出现

[0005]以上可以归纳为先验知识的欠缺,没有这些先验知识,模型只能依靠大量训练数据通过训练得到分类模型,在训练数据资源不足的条件下,影响分类模型的准确性


技术实现思路

[0006]本专利技术实施例提供一种多标签文本分类方法,用以将先验知识注入模型,有效提高训练数据的利用率,在低资源条件下,提升多标签文本分类的准确率,该方法包括:
[0007]获取已知标签类别的多个文本,构建训练集和测试集,所述训练集和测试集包含多个文本和多个标签类别,其中每个文本的已知标签类别为多个;
[0008]将训练集中的每个文本和多个标签类别,输入
BERT
模型,输出第一嵌入式序列;根据训练集中的每个文本和多个标签类别,建立关系矩阵,将关系矩阵转换为第二嵌入式序列;
[0009]将第一嵌入式序列,输入相对注意力网络
RAT
,输出每个文本与多个标签类别之间的语义关联信息;将第二嵌入式序列,输入相对注意力网络
RAT
,输出每个文本和多个标签类别所在范围内的多种内在关联信息;
[0010]采用双向
LSTM
网络,对相对注意力网络
RAT
输出的语义关联信息和多种内在关联信息进行降维,转化为对应的一维向量;将所述一维向量经过线性网络映射至训练集中的多个标签类别;根据所述一维向量的映射结果,得到每个文本的标签类别预测结果;
[0011]基于损失函数,根据每个文本的标签类别预测结果与每个文本的已知标签类别,计算网络模型的损失值,在损失值不小于预设阈值时,根据损失值更新网络模型参数,利用更新后的网络模型继续获得每个文本的标签类别预测结果,直至计算出网络模型的损失值小于预设阈值,得到训练好的网络模型;
[0012]根据测试集对训练好的网络模型进行测试,利用通过测试的网络模型对待分类文
本进行分类

[0013]本专利技术实施例还提供一种多标签文本分类装置,用以将先验知识注入模型,有效提高训练数据的利用率,在低资源条件下,提升多标签文本分类的准确率,该装置包括:
[0014]训练集构建模块,用于获取已知标签类别的多个文本,构建训练集,所述训练集包含多个文本和多个标签类别,其中每个文本的已知标签类别为多个;
[0015]嵌入式序列转换模块,用于将训练集中的每个文本和多个标签类别,输入
BERT
模型,输出第一嵌入式序列;根据训练集中的每个文本和多个标签类别,建立关系矩阵,将关系矩阵转换为第二嵌入式序列;
[0016]关联信息输出模块,用于将第一嵌入式序列,输入相对注意力网络
RAT
,输出每个文本与多个标签类别之间的语义关联信息;将第二嵌入式序列,输入相对注意力网络
RAT
,输出每个文本和多个标签类别所在范围内的多种内在关联信息;
[0017]标签类别预测模块,用于采用双向
LSTM
网络,对相对注意力网络
RAT
输出的语义关联信息和多种内在关联信息进行降维,转化为对应的一维向量;将所述一维向量经过线性网络映射至训练集中的多个标签类别;根据所述一维向量的映射结果,得到每个文本的标签类别预测结果;
[0018]网络模型更新模块,用于基于损失函数,根据每个文本的标签类别预测结果与每个文本的已知标签类别,计算网络模型的损失值,在损失值不小于预设阈值时,根据损失值更新网络模型参数,利用更新后的网络模型继续获得每个文本的标签类别预测结果,直至计算出网络模型的损失值小于预设阈值,得到训练好的网络模型;
[0019]文本分类模块,用于根据测试集对训练好的网络模型进行测试,利用通过测试的网络模型对待分类文本进行分类

[0020]本专利技术实施例还提供一种计算机设备,包括存储器

处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述多标签文本分类方法

[0021]本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述多标签文本分类方法

[0022]本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述多标签文本分类方法

[0023]本专利技术实施例中,获取已知标签类别的多个文本,构建训练集和测试集;将训练集中的每个文本和多个标签类别,输入
BERT
模型,输出第一嵌入式序列;根据训练集中的每个文本和多个标签类别,建立关系矩阵,将关系矩阵转换为第二嵌入式序列;将第一嵌入式序列,输入相对注意力网络
RAT
,输出每个文本与多个标签类别之间的语义关联信息;将第二嵌入式序列,输入相对注意力网络
RAT
,输出每个文本和多个标签类别所在范围内的多种内在关联信息;采用双向
LSTM
网络,对相对注意力网络
RAT
输出的语义关联信息和多种内在关联信息进行降维,转化为对应的一维向量;将所述一维向量经过线性网络映射至训练集中的多个标签类别;根据所述一维向量的映射结果,得到每个文本的标签类别预测结果;基于损失函数,根据每个文本的标签类别预测结果与每个文本的已知标签类别,计算网络模型的损失值,在损失值不小于预设阈值时,根据损失值更新网络模型参数,利用更新后的网络模型继续获得每个文本的标签类别预测结果,直至计算出网络模型的损失值小于预设阈
值,得到训练好的网络模型;根据测试集对训练好的网络模型进行测试,利用通过测试的网络模型对待分类文本进行分类

[0024]本专利技术通过挖掘本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种多标签文本分类方法,其特征在于,包括:获取已知标签类别的多个文本,构建训练集和测试集,所述训练集和测试集包含多个文本和多个标签类别,其中每个文本的已知标签类别为多个;将训练集中的每个文本和多个标签类别,输入
BERT
模型,输出第一嵌入式序列;根据训练集中的每个文本和多个标签类别,建立关系矩阵,将关系矩阵转换为第二嵌入式序列;将第一嵌入式序列,输入相对注意力网络
RAT
,输出每个文本与多个标签类别之间的语义关联信息;将第二嵌入式序列,输入相对注意力网络
RAT
,输出每个文本和多个标签类别所在范围内的多种内在关联信息;采用双向
LSTM
网络,对相对注意力网络
RAT
输出的语义关联信息和多种内在关联信息进行降维,转化为对应的一维向量;将所述一维向量经过线性网络映射至训练集中的多个标签类别;根据所述一维向量的映射结果,得到每个文本的标签类别预测结果;基于损失函数,根据每个文本的标签类别预测结果与每个文本的已知标签类别,计算网络模型的损失值,在损失值不小于预设阈值时,根据损失值更新网络模型参数,利用更新后的网络模型继续获得每个文本的标签类别预测结果,直至计算出网络模型的损失值小于预设阈值,得到训练好的网络模型;根据测试集对训练好的网络模型进行测试,利用通过测试的网络模型对待分类文本进行分类
。2.
如权利要求1所述的方法,其特征在于,所述关系矩阵中包括以下关系类型:每个文本中各元素之间的关系

每个文本与多个标签类别之间的关系和多个标签类别之间的关系
。3.
如权利要求1所述的方法,其特征在于,根据训练集中的每个文本和多个标签类别,建立关系矩阵,包括:对于每个文本中各元素之间的关系,计算每个文本中各元素之间距离;将每个文本中各元素之间距离,作为每个文本中各元素之间的关系,建立关系矩阵
。4.
如权利要求3所述的方法,其特征在于,包括:按照以下公式计算每个文本中各元素之间距离:
r
ij

|i

j|
其中,
r
ij
表示关系矩阵中第
i
行第
j
列的元素
。5.
如权利要求1所述的方法,其特征在于,根据训练集中的每个文本和多个标签类别,建立关系矩阵,包括:对于每个文本与多个标签类别之间的关系,采用分词工具对每个文本和多个标签类别的描述信息进行分词划分,得到分词划分结果,所述分词划分结果包括实体词

停用词和其他词;根据分词划分结果,确定每个文本与多个标签类别之间的关系,建立关系矩阵;所述每个文本与多个标签类别之间的关系包括实体词

停用词和其他词之间的多种关系
。6.
如权利要求5所述的方法,其特征在于,根据分词划分结果,确定每个文本与多个标签类别之间的关系,包括:对于实体词与实体词之间的关系,是从预先构建的知识图谱中查询到的,所述知识图谱是根据不同实体之间的关联关系构建的;
对于实体词与其他词或其他词与其他词之间的关系,是通过计算实体词与其他词或其他词与其他词之间的相似系数,由相似系数的数值范围,以及预先设置的不同相似系数的数值范围对应的关系确定的;对于停用词与实体词或停用词与其他词之间的关系,是根据人工建立的停用词表确定的
。7.
如权利要求1所述的方法,其特征在于,根据训练集中的每个文本和多个标签类别,建立关系矩阵,包括:对于多个标签类别之间的关系,计算各标签类别之间的关系系数,所述关系系数表征各标签类别之间的关联紧密度;根据各标签类别之间的关系系数,以及预先设置的不同关系系数的数值范围对应的关系,确定多个标签类别之间的关系,建立关系矩阵
。8.
如权利要求7所述的方法,其特征在于,包括:按照如下公式计算各标签类别之间的关系系数:关系系数:其中,
k
为训练数据个数,
i

j
表示类别标签中的第
i
和第
j
条标签
。9.
一种多标签文本分类装置,其特征在于,包括:训练集构建模块,用于获取已知标签类别的多个文本,构建训练集,所述训练集包含多个文本和多个标签类别,其中每个文本的已知标签类别为多个;嵌入式序列转换模块,用于将训练集中的每个文本和多个标签类别,输入
BERT
模型,输出第一嵌入式序列;根据训练集中的每个文本和多个标签类别,建立关系矩阵,将关系矩阵转换为第二嵌入式序列;关联信息输出模块,用于将第一嵌...

【专利技术属性】
技术研发人员:朱珣励胜曾菊儒王青阎蓉张兰兰
申请(专利权)人:银清科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1