基于类名引导的弱监督文本分类系统及其方法技术方案

技术编号:34565888 阅读:22 留言:0更新日期:2022-08-17 12:55
本发明专利技术涉及基于类名引导的弱监督文本分类系统及方法,由种子词生成模块,对语料库中语料学习向量表示、建模关系、生成种子词;由伪标签分配模块,给语料库中的文档分配预测的伪标签;由文档分类器模块,根据已分配伪标签的文档进行预训练,在未标注文档上泛化训练;由种子词扩展模块,在一次分类完成后,通过对分类结果以及生成种子词时产生的排名分数进行综合考虑,以此扩展种子词。首先,将类名与语料库进行种子词生成;迭代地将种子词生成之后的种子词运用于伪标签分配,使用分配了伪标签的文档训练文档分类器,通过预测的结果扩展种子词;等到迭代次数结束,输出分类结果。减少高质量标注语料库的依赖,解决缓解文本分类领域的数据稀缺问题。数据稀缺问题。数据稀缺问题。

【技术实现步骤摘要】
基于类名引导的弱监督文本分类系统及其方法


[0001]本专利技术涉及一种基于类名引导的弱监督文本分类系统及其方法。

技术介绍

[0002]目前,文本分类任务是自然语言处理中最基础的任务,从情感分析到意图识别,再到信息抽取都可以见到其身影。近年来,循环神经网络、卷积神经网络以及BERT预训练模型都在文本分类任务上取得了十分优异的成绩,这些文本分类模型正越来越受到学界的欢迎,要训练一个有监督分类模型,至少需要消耗数十万的标注文档。然而想要收集这种规模的训练文档常常需要大量标注人员和文档专家的协同配合,缺乏训练数据是监督分类模型难以大规模落地的重要原因。
[0003]弱监督文本分类的主要技术方法分为:基于类名的方法、基于种子词的方法等,基于类名的方法多采用将标签和文档嵌入语义空间,计算文档和潜在标签之间的语义相似度为主要手段,利用逻辑回归模型进行分类;基于种子词的方法多使用由对语料库特别熟悉的专家提供的种子词作为监督源,使用语境化技术进行文本分类,例如:BERT模型,ELMo模型等等。现有的弱监督文本分类技术存在较多的局限性。

技术实现思路

[0004]本专利技术的目的是克服现有技术存在的不足,提供一种基于类名引导的弱监督文本分类系统及其方法。
[0005]本专利技术的目的通过以下技术方案来实现:
[0006]基于类名引导的弱监督文本分类系统,特点是:包含种子词生成模块、伪标签分配模块、文档分类器模块以及种子词扩展模块;
[0007]所述种子词生成模块,对语料库中语料学习向量表示、建模关系、生成种子词;
[0008]所述伪标签分配模块,给语料库中的文档分配预测的伪标签;
[0009]所述文档分类器模块,根据已分配伪标签的文档进行预训练,在未标注文档上泛化训练;
[0010]所述种子词扩展模块,在一次分类完成后,通过对分类结果以及生成种子词时产生的排名分数进行综合考虑,以此扩展种子词。
[0011]进一步地,上述的基于类名引导的弱监督文本分类系统,其中,所述种子词生成模块包含生成模块和挑选模块,所述生成模块,用于学习向量表示、建模关系,将类名与语料库中的文档进行建模,通过相似度计算,得到一系列语义相关的单词;所述挑选模块,用于生成种子词,将得到的语义相关单词联合考虑语义特异性,得出单词排名分数,以便生成高质量的种子词。
[0012]进一步地,上述的基于类名引导的弱监督文本分类系统,其中,所述伪标签分配模块,统计种子词生成模块生成的高质量种子词在文档中出现的频率,并结合种子词生成模块得出的单词排名分数,给未标注的文档分配伪标签。
[0013]进一步地,上述的基于类名引导的弱监督文本分类系统,其中,所述文档分类器模块,采用层次注意力模型作为分类器,先关注文档中的句子,找到文档中的重要句子,然后关注句子中的单词,识别句子中的重要单词;接着采用伪标签分配模块生成的伪标签在未标记的文档数据上训练一个HAN模型。
[0014]进一步地,上述的基于类名引导的弱监督文本分类系统,其中,所述种子词扩展模块,通过将文档分类器模块所得到的对文档的预测概率与种子词在预测的文档中的出现频率进行综合考虑,计算出扩展分数;种子词扩展模块扩充种子词生成模块的种子词集,通过伪标签分配模块再次分配伪标签,然后训练文档分类器模块,直至收敛。
[0015]本专利技术基于类名引导的弱监督文本分类方法,其中,包括以下步骤:
[0016]首先,将类名与语料库进行种子词生成;
[0017]然后,迭代地将种子词生成之后的种子词运用于伪标签分配,使用分配了伪标签的文档训练文档分类器,通过预测的结果扩展种子词;
[0018]最后,等到迭代次数结束,输出分类结果。
[0019]更进一步地,上述的基于类名引导的弱监督文本分类方法,其中,由种子词生成模块,对语料库中语料学习向量表示、建模关系、生成种子词;由伪标签分配模块,给语料库中的文档分配预测的伪标签;由文档分类器模块,根据已分配伪标签的文档进行预训练,接着在未标注文档上泛化训练;由种子词扩展模块,在一次分类完成后,通过对分类结果以及生成种子词时产生的排名分数进行综合考虑,以此扩展种子词。
[0020]更进一步地,上述的基于类名引导的弱监督文本分类方法,其中,由种子词生成模块的生成模块将类名与语料库中的文档进行建模,通过相似度计算,得到一系列语义相关的单词;由种子词生成模块的挑选模块,将得到的语义相关单词联合考虑语义特异性,得出单词排名分数,以便生成高质量的种子词;
[0021]种子词生成模块中的生成模块采用冯米塞尔分布,对类名与语料库进行建模,并使用相似度计算获得一组单词,计算如下:
[0022]冯米塞尔分布,x
w
是语料库中单词的m维向量,是阶的第一类修正贝塞尔函数;冯米塞尔分布有平均方向和集中参数两个参数,标签名向量u
l
被作为平均方向,其他单词在标签名附近的集中程度k
l
被作为集中参数,分布表达式:
[0023][0024]相似度计算,余弦相似度可提取单词间的语义相关性,从而获得一系列与类名相关的单词,通过向量余弦相似度获取一组与标签名l高度语义相关的单词W
k

[0025][0026][0027]冯米塞尔分布是一个球形分布,与中心词语义相关的会聚集在中心词四周,通过
相似度计算,可获得一系列与类名相关的单词;
[0028]种子词生成模块的挑选模块,使用语义特异性,并联合相似度计算,来获取最终的种子词,计算如下:
[0029]语义特异性,如果单词v的含义包含另一个单词w含义,那么单词v的所有上下文特征会在单词w中出现;使用标量SC
w,l
将单词w与标签名l关联,SC
w,l
越大时,表明单词w的语义较标签名l而言更具体且排他;将单词的SC
w,l
值进行归一化操作,以此得到语义特异性分数:
[0030][0031]由伪标签分配模块,给语料库中的文档分配预测的伪标签;
[0032]由文档分类器模块,根据已分配伪标签的文档进行预训练,接着在未标注文档上泛化训练;
[0033]由种子词扩展模块,在一次分类完成后,通过对分类结果以及生成种子词时产生的排名分数进行综合考虑,以此扩展种子词;
[0034]种子词扩展模块扩充种子词生成模块的种子词集,通过伪标签分配模块再次分配伪标签,然后训练文档分类器模块,直至收敛;迭代的训练框架赋予其更强的泛化能力和有效性。
[0035]本专利技术与现有技术相比具有显著的优点和有益效果,具体体现在以下方面:
[0036]①
本专利技术基于类名引导的弱监督文本分类系统及方法,对语料库中语料学习向量表示、建模关系、生成种子词,通过种子词生成模块,生成与类名相关的种子词,有效减少高质量标注语料库的依赖,解决了缓解文本分类领域的数据稀缺问题;
[0037]②
使用类名本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于类名引导的弱监督文本分类系统,其特征在于:包含种子词生成模块(1)、伪标签分配模块(2)、文档分类器模块(3)以及种子词扩展模块(4);所述种子词生成模块(1),对语料库中语料学习向量表示、建模关系、生成种子词;所述伪标签分配模块(2),给语料库中的文档分配预测的伪标签;所述文档分类器模块(3),根据已分配伪标签的文档进行预训练,在未标注文档上泛化训练;所述种子词扩展模块(4),在一次分类完成后,通过对分类结果以及生成种子词时产生的排名分数进行综合考虑,以此扩展种子词。2.根据权利要求1所述的基于类名引导的弱监督文本分类系统,其特征在于:所述种子词生成模块(1)包含生成模块(101)和挑选模块(102),所述生成模块(101),用于学习向量表示、建模关系,将类名与语料库中的文档进行建模,通过相似度计算,得到一系列语义相关的单词;所述挑选模块(102),用于生成种子词,将得到的语义相关单词联合考虑语义特异性,得出单词排名分数,以便生成高质量的种子词。3.根据权利要求1所述的基于类名引导的弱监督文本分类系统,其特征在于:所述伪标签分配模块(2),统计种子词生成模块(1)生成的高质量种子词在文档中出现的频率,并结合种子词生成模块(1)得出的单词排名分数,给未标注的文档分配伪标签。4.根据权利要求1所述的基于类名引导的弱监督文本分类系统,其特征在于:所述文档分类器模块(3),采用层次注意力模型作为分类器,先关注文档中的句子,找到文档中的重要句子,然后关注句子中的单词,识别句子中的重要单词;接着采用伪标签分配模块(2)生成的伪标签在未标记的文档数据上训练一个HAN模型。5.根据权利要求1所述的基于类名引导的弱监督文本分类系统,其特征在于:所述种子词扩展模块(4),通过将文档分类器模块(3)所得到的对文档的预测概率与种子词在预测的文档中的出现频率进行综合考虑,计算出扩展分数;种子词扩展模块(4)扩充种子词生成模块(1)的种子词集,通过伪标签分配模块(2)再次分配伪标签,然后训练文档分类器模块(3),直至收敛。6.权利要求1所述的系统实现基于类名引导的弱监督文本分类方法,其特征在于:包括以下步骤:首先,将类名与语料库进行种子词生成;然后,迭代地将种子词生成之后的种子词运用于伪标签分配,使用分配了伪标签的文档训练文档分类器,通过预测的结果扩展种子词;最后,等到迭代次数结束,输出分类结果。7.根据权利要求6所述的基于类名引导的弱监督文本分类方法,其特征在于:由种子词生成模块(1),对语料库中语料学习向量表示、建模关系、生...

【专利技术属性】
技术研发人员:奚雪峰周悦尧左严崔志明
申请(专利权)人:江苏新希望科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1