【技术实现步骤摘要】
一种短文本多标签分类方法
本专利技术属于自然语言处理领域,涉及一种短文本多标签分类方法。
技术介绍
多标签分类在文本、图像、生物基因功能和视频语义标注等方面得到了广泛的应用。与单标签分类相比,多标签分类更符合现实世界的客观规律,是自然语言处理领域(NLP)的一项重要任务,目标是为数据集中的每个实例分配多个标签。短文本的稀疏性导致其多标签分类相较与长文本多标签分类存在样本真实标签信息不足的问题,很难根据短文本准确预测所有标签。因此短文本多标签分类模型在训练学习时需要更多信息预测更多标签,防止某些特征信息不足容易忽略真实标签。目前,多标签分类的相关研究工作可以分为三类:一阶算法、二阶算法和高阶算法。一阶算法把多标签分解成多个独立的二分类问题,不考虑多标签之间的相关性;二阶算法考虑标签之间的成对关联关系,比如为相关标签和不相关标签排序。由于二阶策略一定程度上利用了标签相关性,因此,基于二阶策略的多标签分类算法可以获得较好的泛化性能。然而,在实际的应用当中,标签相关性一般超出了二阶相关;高阶算法通过挖掘所有类别标签集合或标签子集之间的相关性来解决多标签学习问题,试图通过假设所有样本都相关来全局地利用标签相关性,但是在许多情况下,使用全局标签相关性学习的多标签分类器的分类效果不是非常有效的,同时在计算上要求更高。随着文本数据的大量产生,人们针对文本的多标签分类技术做了大量探索和实践。专利申请号CN201410310719.5提出了一种多标签文本分类方法及系统,该方法通过选取使得后验概率最大的标签子集作为待分类文 ...
【技术保护点】
1.一种短文本多标签分类方法,其具体步骤如下:/nS1、将收集的短文本数据进行文本预处理得到文本向量和对应的标签集向量及标签关系数据集;/nS2、利用自注意力机制学习文本内部的依赖关系,得到新的文本向量;/nS3、利用图注意力神经网络学习标签之间的依赖关系,得到新的标签集向量;/nS4、将新的文本向量和新的标签集向量进行点乘,输出文本标签向量,利用目标函数对文本标签向量与真实标签向量进行对齐训练得到文本多标签分类模型;/nS5、将待预测文本进行预处理得到文本向量后输入到文本多标签分类模型中预测分类。/n
【技术特征摘要】
1.一种短文本多标签分类方法,其具体步骤如下:
S1、将收集的短文本数据进行文本预处理得到文本向量和对应的标签集向量及标签关系数据集;
S2、利用自注意力机制学习文本内部的依赖关系,得到新的文本向量;
S3、利用图注意力神经网络学习标签之间的依赖关系,得到新的标签集向量;
S4、将新的文本向量和新的标签集向量进行点乘,输出文本标签向量,利用目标函数对文本标签向量与真实标签向量进行对齐训练得到文本多标签分类模型;
S5、将待预测文本进行预处理得到文本向量后输入到文本多标签分类模型中预测分类。
2.根据权利要求1所述的一种短文本多标签分类方法,其特征在于:步骤S1中的文本预处理的具体步骤包括:
S11、将收集到的短文本进行清洗得到字符级短文本数据S;
S12、构建词汇表:将步骤S11输出的短文本数据S中的字符整理成集合作为模型输入的词汇表Cx={<s>:0,</s>:1,unk:2,...,x:x_size},同时将收集的短文本数据标签整理成集合作为模型输出的词汇表Cy={<s>:0,</s>:1,...,y:y_size},其中<s>为开始标识,</s>为结束标识,unk为未知字符标识,x为短文本数据中的字符,y为短文本数据对应的标签,x_size为短文本数据的字符总数,y_size为短文本数据的标签总数;
S13、构建标签关系数据集:假设一个短文本数据对应多个标签,则定义这些标签相互存在联系,以此类推,对所有短文本数据对应的标签以成对形式整理为标签关系数据集label∈RL×2,其中L为有关系标签的总数;
S14、文本嵌入:假设一个短文本数据预处理后为对应标签集为其中lx为固定的文本长度,ly为标签集长度,则根据步骤S12输出的词汇表Cx,Cy构造矩阵,文本矩阵为标签集矩阵为将标签集矩阵转为one-hot形式,即Yone-hot∈Ry_siz×e1;同时利用WordEmbedding给文本矩阵每个字符分配一个固定长度为lw的向量表示,得到文本向量给Cy中所有标签分配一个固定长度为lw的向量表示,即标签集向量
3.根据权利要求2所述的一种短文本多标签分类方法,其特征在于:步骤S11中短文本清洗包括数据去重、删除相似数据、去停用词。
4.根据权利要求2所述的一种短文本多标签分类方法,其特征在于:步骤S2的具体步骤如下:
S21、创建q,k,v三个矢量:初始化三个变量根据步骤S14输出的文本向量得到
S22、计算自注意力:首先计算文本中第一个词的自我关注,第一个得分score=q1·k1,第二个得分score=q1·k2,以此类推第lx个得分将使梯度保持稳定,其中bk为k的维度;
S23、KeyMasking:对k进行求和为key_mask,记录ke...
【专利技术属性】
技术研发人员:金佳佳,丁锴,李建元,陈涛,
申请(专利权)人:银江股份有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。