一种短文本多标签分类方法技术

技术编号:25308653 阅读:38 留言:0更新日期:2020-08-18 22:27
一种短文本多标签分类方法,其具体步骤如下:S1、将收集的短文本数据进行文本预处理得到文本向量和对应的标签集向量;S2、利用自注意力机制学习文本内部的依赖关系,得到新的文本向量;S3、利用图注意力神经网络学习标签之间的依赖关系,得到新的标签集向量;S4、将新的文本向量和新的标签集向量进行点乘,输出文本标签向量,利用目标函数对文本标签向量与真实标签向量进行对齐训练得到文本多标签分类模型;S5、将待预测文本进行预处理得到文本向量后输入到文本多标签分类模型中预测分类。本发明专利技术解决了短文本信息不足而无法准确预测所有标签的问题,提高文本多标签分类的准确性。

【技术实现步骤摘要】
一种短文本多标签分类方法
本专利技术属于自然语言处理领域,涉及一种短文本多标签分类方法。
技术介绍
多标签分类在文本、图像、生物基因功能和视频语义标注等方面得到了广泛的应用。与单标签分类相比,多标签分类更符合现实世界的客观规律,是自然语言处理领域(NLP)的一项重要任务,目标是为数据集中的每个实例分配多个标签。短文本的稀疏性导致其多标签分类相较与长文本多标签分类存在样本真实标签信息不足的问题,很难根据短文本准确预测所有标签。因此短文本多标签分类模型在训练学习时需要更多信息预测更多标签,防止某些特征信息不足容易忽略真实标签。目前,多标签分类的相关研究工作可以分为三类:一阶算法、二阶算法和高阶算法。一阶算法把多标签分解成多个独立的二分类问题,不考虑多标签之间的相关性;二阶算法考虑标签之间的成对关联关系,比如为相关标签和不相关标签排序。由于二阶策略一定程度上利用了标签相关性,因此,基于二阶策略的多标签分类算法可以获得较好的泛化性能。然而,在实际的应用当中,标签相关性一般超出了二阶相关;高阶算法通过挖掘所有类别标签集合或标签子集之间的相关性来解决多标签学习问题,试图通过假设所有样本都相关来全局地利用标签相关性,但是在许多情况下,使用全局标签相关性学习的多标签分类器的分类效果不是非常有效的,同时在计算上要求更高。随着文本数据的大量产生,人们针对文本的多标签分类技术做了大量探索和实践。专利申请号CN201410310719.5提出了一种多标签文本分类方法及系统,该方法通过选取使得后验概率最大的标签子集作为待分类文档的分类结果,具有总体性能高及计算量小的特点。专利申请号CN201510114326.1提出了一种多标签分类方法及相应装置,该方法利用问题转换算法将多标签分类问题转换成多个单标签分类问题。目前的多标签分类方法没有学习到标签之间的依赖关系,解决不了短文本信息不足而无法预测所有标签的问题。
技术实现思路
针对上述
技术介绍
介绍中存在的问题,本专利技术的目的在于提供了一种短文本多标签分类方法,解决了短文本信息不足而无法准确预测所有标签的问题,提高文本多标签分类的准确性。本专利技术采用的技术方案是:一种短文本多标签分类方法,其具体步骤如下:S1、将收集的短文本数据进行文本预处理得到文本向量和对应的标签集向量;S2、利用自注意力机制学习文本内部的依赖关系,得到新的文本向量;S3、利用图注意力神经网络学习标签之间的依赖关系,得到新的标签集向量;S4、将新的文本向量和新的标签集向量进行点乘,输出文本标签向量,利用目标函数对文本标签向量与真实标签向量进行对齐训练得到文本多标签分类模型;S5、将待预测文本进行预处理得到文本向量后输入到文本多标签分类模型中预测分类。进一步,步骤S1中的文本预处理的具体步骤包括:S11、将收集到的短文本进行清洗得到字符级短文本数据S;S12、构建词汇表:将步骤S11输出的短文本数据S中的字符整理成集合作为模型输入的词汇表Cx={<s>:0,</s>:1,unk:2,...,x:x_size},同时将收集的短文本数据标签整理成集合作为模型输出的词汇表Cy={<s>:0,</s>:1,...,y:y_size},其中<s>为开始标识,</s>为结束标识,unk为未知字符标识,x为短文本数据中的字符,y为短文本数据对应的标签,x_size为短文本数据的字符总数,y_size为短文本数据的标签总数;S13、构建标签关系数据集:假设一个短文本数据对应多个标签,则定义这些标签相互存在联系,以此类推,对所有短文本数据对应的标签以成对形式整理为标签关系数据集label∈RL×2,其中L为有关系标签的总数;S14、文本嵌入:假设一个短文本数据预处理后为对应标签集为其中lx为固定的文本长度,ly为标签集长度,则根据步骤S12输出的词汇表Cx,Cy构造矩阵,文本矩阵为标签集矩阵为将标签集矩阵转为one-hot形式,即Yone-hot∈Ry_siz×e1;同时利用WordEmbedding给文本矩阵每个字符分配一个固定长度为lw的向量表示,得到文本向量给Cy中所有标签分配一个固定长度为lw的向量表示,即标签集向量进一步,步骤S11中短文本清洗包括数据去重、删除相似数据、去停用词。进一步,步骤S2的具体步骤如下:S21、创建q,k,v三个矢量:初始化三个变量根据步骤S14输出的文本向量得到S22、计算自注意力:首先计算文本中第一个词的自我关注,第一个得分score=q1·k1,第二个得分score=q1·k2,以此类推第lx个得分将使梯度保持稳定,其中bk为k的维度;S23、KeyMasking:对k进行求和为key_mask,记录key_mask为0时的索引,根据步骤S22输出的score在相同索引处替换为小数字,保持关注的词或字的值不变并淹没不相关的词或字;S24、输出文本向量:通过softmax将步骤S23输出的分数标准化,softmax分数即此词在该位置表达的程度,由softmax分数乘以v为z1,即第一个词的向量,以此类推新文本向量output=attention×v(2)其中attention为分数标准化,output为输出。进一步,步骤S2还可以采用多头注意力机制学习文本内部的依赖关系,根据预设注意力头的数量,重复步骤S21至步骤S24,将每次得到的文本向量合并并输出最终的新文本向量。进一步,步骤S3的具体步骤如下:S31、构建图网络:初始化一个零矩阵O∈Ry_size×y_size,根据步骤S13输出的标签关系数据集label,通过公式A=O[labelL[0],labelL[1]]=1构建一个无向图,其中labeLl[0]为labelL的第一个值,labelL[1]为labelL的第二个值,如假设label1=[1,3],使零矩阵O的第一行第三列值为1,即A=O[1,3]=1;S32、标签注意力层:根据步骤S31输出的图网络A,对每个顶点逐个计算它的邻居们和它自己之间的注意力系数;对于顶点i,与其邻居j∈Ni之间的注意力系数eij为:即一个共享参数对顶点进行特征增强,并与邻居顶点相乘映射到一个实数αij上,最后根据计算好的注意力系数进行特征加权求和,即为顶点(标签)的新特征向量表示:其中σ为激活函数,最终输出新的标签集向量进一步,步骤S32标签注意力层还可以采用多头注意力机制,根据预设注意力头的数量,训练不同的共享参数,重复步骤S32,将每次得到的标签集向量合并并降维,输出最终的新标签集向量。进一步,步骤S4的具体步骤如下:S41、构建文本标签向量:将步骤S24输出的文本向量与步骤S32输出的标签集向量进行点乘,输出文本标签向量S42、全连接层:将步骤S41输出的文本标签向量通过全连接层进行降维,本文档来自技高网
...

【技术保护点】
1.一种短文本多标签分类方法,其具体步骤如下:/nS1、将收集的短文本数据进行文本预处理得到文本向量和对应的标签集向量及标签关系数据集;/nS2、利用自注意力机制学习文本内部的依赖关系,得到新的文本向量;/nS3、利用图注意力神经网络学习标签之间的依赖关系,得到新的标签集向量;/nS4、将新的文本向量和新的标签集向量进行点乘,输出文本标签向量,利用目标函数对文本标签向量与真实标签向量进行对齐训练得到文本多标签分类模型;/nS5、将待预测文本进行预处理得到文本向量后输入到文本多标签分类模型中预测分类。/n

【技术特征摘要】
1.一种短文本多标签分类方法,其具体步骤如下:
S1、将收集的短文本数据进行文本预处理得到文本向量和对应的标签集向量及标签关系数据集;
S2、利用自注意力机制学习文本内部的依赖关系,得到新的文本向量;
S3、利用图注意力神经网络学习标签之间的依赖关系,得到新的标签集向量;
S4、将新的文本向量和新的标签集向量进行点乘,输出文本标签向量,利用目标函数对文本标签向量与真实标签向量进行对齐训练得到文本多标签分类模型;
S5、将待预测文本进行预处理得到文本向量后输入到文本多标签分类模型中预测分类。


2.根据权利要求1所述的一种短文本多标签分类方法,其特征在于:步骤S1中的文本预处理的具体步骤包括:
S11、将收集到的短文本进行清洗得到字符级短文本数据S;
S12、构建词汇表:将步骤S11输出的短文本数据S中的字符整理成集合作为模型输入的词汇表Cx={<s>:0,</s>:1,unk:2,...,x:x_size},同时将收集的短文本数据标签整理成集合作为模型输出的词汇表Cy={<s>:0,</s>:1,...,y:y_size},其中<s>为开始标识,</s>为结束标识,unk为未知字符标识,x为短文本数据中的字符,y为短文本数据对应的标签,x_size为短文本数据的字符总数,y_size为短文本数据的标签总数;
S13、构建标签关系数据集:假设一个短文本数据对应多个标签,则定义这些标签相互存在联系,以此类推,对所有短文本数据对应的标签以成对形式整理为标签关系数据集label∈RL×2,其中L为有关系标签的总数;
S14、文本嵌入:假设一个短文本数据预处理后为对应标签集为其中lx为固定的文本长度,ly为标签集长度,则根据步骤S12输出的词汇表Cx,Cy构造矩阵,文本矩阵为标签集矩阵为将标签集矩阵转为one-hot形式,即Yone-hot∈Ry_siz×e1;同时利用WordEmbedding给文本矩阵每个字符分配一个固定长度为lw的向量表示,得到文本向量给Cy中所有标签分配一个固定长度为lw的向量表示,即标签集向量


3.根据权利要求2所述的一种短文本多标签分类方法,其特征在于:步骤S11中短文本清洗包括数据去重、删除相似数据、去停用词。


4.根据权利要求2所述的一种短文本多标签分类方法,其特征在于:步骤S2的具体步骤如下:
S21、创建q,k,v三个矢量:初始化三个变量根据步骤S14输出的文本向量得到
S22、计算自注意力:首先计算文本中第一个词的自我关注,第一个得分score=q1·k1,第二个得分score=q1·k2,以此类推第lx个得分将使梯度保持稳定,其中bk为k的维度;
S23、KeyMasking:对k进行求和为key_mask,记录ke...

【专利技术属性】
技术研发人员:金佳佳丁锴李建元陈涛
申请(专利权)人:银江股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1