基于类名引导的弱监督文本分类系统及其方法技术方案

技术编号：34565888 阅读：22 留言：0更新日期：2022-08-17 12:55

本发明专利技术涉及基于类名引导的弱监督文本分类系统及方法，由种子词生成模块，对语料库中语料学习向量表示、建模关系、生成种子词；由伪标签分配模块，给语料库中的文档分配预测的伪标签；由文档分类器模块，根据已分配伪标签的文档进行预训练，在未标注文档上泛化训练；由种子词扩展模块，在一次分类完成后，通过对分类结果以及生成种子词时产生的排名分数进行综合考虑，以此扩展种子词。首先，将类名与语料库进行种子词生成；迭代地将种子词生成之后的种子词运用于伪标签分配，使用分配了伪标签的文档训练文档分类器，通过预测的结果扩展种子词；等到迭代次数结束，输出分类结果。减少高质量标注语料库的依赖，解决缓解文本分类领域的数据稀缺问题。数据稀缺问题。数据稀缺问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于类名引导的弱监督文本分类系统及其方法

[0001]本专利技术涉及一种基于类名引导的弱监督文本分类系统及其方法。

技术介绍

[0002]目前，文本分类任务是自然语言处理中最基础的任务，从情感分析到意图识别，再到信息抽取都可以见到其身影。近年来，循环神经网络、卷积神经网络以及BERT预训练模型都在文本分类任务上取得了十分优异的成绩，这些文本分类模型正越来越受到学界的欢迎，要训练一个有监督分类模型，至少需要消耗数十万的标注文档。然而想要收集这种规模的训练文档常常需要大量标注人员和文档专家的协同配合，缺乏训练数据是监督分类模型难以大规模落地的重要原因。
[0003]弱监督文本分类的主要技术方法分为：基于类名的方法、基于种子词的方法等，基于类名的方法多采用将标签和文档嵌入语义空间，计算文档和潜在标签之间的语义相似度为主要手段，利用逻辑回归模型进行分类；基于种子词的方法多使用由对语料库特别熟悉的专家提供的种子词作为监督源，使用语境化技术进行文本分类，例如：BERT模型，ELMo模型等等。现有的弱监督文本分类技术存在较多的局限性。

技术实现思路

[0004]本专利技术的目的是克服现有技术存在的不足，提供一种基于类名引导的弱监督文本分类系统及其方法。
[0005]本专利技术的目的通过以下技术方案来实现：
[0006]基于类名引导的弱监督文本分类系统，特点是：包含种子词生成模块、伪标签分配模块、文档分类器模块以及种子词扩展模块；
[0007]所述种子词生成模块，对语料库中语料学习向量...

【技术保护点】

【技术特征摘要】
1.基于类名引导的弱监督文本分类系统，其特征在于：包含种子词生成模块(1)、伪标签分配模块(2)、文档分类器模块(3)以及种子词扩展模块(4)；所述种子词生成模块(1)，对语料库中语料学习向量表示、建模关系、生成种子词；所述伪标签分配模块(2)，给语料库中的文档分配预测的伪标签；所述文档分类器模块(3)，根据已分配伪标签的文档进行预训练，在未标注文档上泛化训练；所述种子词扩展模块(4)，在一次分类完成后，通过对分类结果以及生成种子词时产生的排名分数进行综合考虑，以此扩展种子词。2.根据权利要求1所述的基于类名引导的弱监督文本分类系统，其特征在于：所述种子词生成模块(1)包含生成模块(101)和挑选模块(102)，所述生成模块(101)，用于学习向量表示、建模关系，将类名与语料库中的文档进行建模，通过相似度计算，得到一系列语义相关的单词；所述挑选模块(102)，用于生成种子词，将得到的语义相关单词联合考虑语义特异性，得出单词排名分数，以便生成高质量的种子词。3.根据权利要求1所述的基于类名引导的弱监督文本分类系统，其特征在于：所述伪标签分配模块(2)，统计种子词生成模块(1)生成的高质量种子词在文档中出现的频率，并结合种子词生成模块(1)得出的单词排名分数，给未标注的文档分配伪标签。4.根据权利要求1所述的基于类名引导的弱监督文本分类系统，其特征在于：所述文档分类器模块(3)，采用层次注意力模型作为分类器，先关注文档中的句子，找到文档中的重要句子，然后关注句子中的单词，识别句子中的重要单词；接着采用伪标签分配模块(2)生成的伪标签在未标记的文档数据上训练一个HAN模型。5.根据权利要求1所述的基于类名引导的弱监督文本分类系统，其特征在于：所述种子词扩展模块(4)，通过将文档分类器模块(3)所得到的对文档的预测概率与种子词在预测的文档中的出现频率进行综合考虑，计算出扩展分数；种子词扩展模块(4)扩充种子词生成模块(1)的种子词集，通过伪标签分配模块(2)再次分配伪标签，然后训练文档分类器模块(3)，直至收敛。6.权利要求1所述的系统实现基于类名引导的弱监督文本分类方法，其特征在于：包括以下步骤：首先，将类名与语料库进行种子词生成；然后，迭代地将种子词生成之后的种子词运用于伪标签分配，使用分配了伪标签的文档训练文档分类器，通过预测的结果扩展种子词；最后，等到迭代次数结束，输出分类结果。7.根据权利要求6所述的基于类名引导的弱监督文本分类方法，其特征在于：由种子词生成模块(1)，对语料库中语料学习向量表示、建模关系、生...

【专利技术属性】
技术研发人员：奚雪峰，周悦尧，左严，崔志明，
申请(专利权)人：江苏新希望科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人