当前位置: 首页 > 专利查询>吉林大学专利>正文

一种大规模极弱监督多标签政策分类方法及系统技术方案

技术编号:37603968 阅读:9 留言:0更新日期:2023-05-18 11:55
本发明专利技术公开了一种大规模极弱监督多标签政策分类方法及系统,包括以下步骤:基于未标记政策语料库对WoBERT进行连续的预训练,获得政策领域专用的语言模型;利用所述政策领域专用的语言模型,从所述未标记政策语料库中学习与标签名称语义相关的种子词,并为每个类别种子词构建种子词汇表;利用所述种子词汇表中的类别种子词信息,为未标记的政策生成伪标签,并将带有伪标签的政策添加到伪训练集中;利用所述伪训练集对所述政策领域专用的语言模型进行训练,利用训练好的所述政策领域专用的语言模型为政策进行编码操作,完成多标签政策分类。本发明专利技术利用用户提供标签名称,而不是使用任何的标记文档,来对海量的政策数据进行分类。类。类。

【技术实现步骤摘要】
一种大规模极弱监督多标签政策分类方法及系统


[0001]本专利技术属于人工智能的自然语言处理领域,具体涉及一种大规模极弱监督多标签政策分类方法及系统。

技术介绍

[0002]随着电子政务的发展,我国的多个地方政府都在发展基于互联网的开放政策平台,这些在线平台要求对政策进行分类。然而,在实际任务中,由政府工作人员手动标记政策既昂贵又耗时。因此,有必要为政府自动分类这些政策。将大量的政策自动划分到预定义的类别中可以看作是文本分类,这是自然语言处理(NLP)和机器学习中的一项基本任务。传统的机器学习方法如朴素贝叶斯算法、支持向量机等技术的分类效果相对较差。近年来,由于深度学习具有强大的表示学习能力,能够有效地捕获文本序列中的高阶、远程语义依赖性,许多研究人员提出了基于深度学习的政策分类器,包括CNNs和RNNs等。这些基于深度学习的分类器在大规模人工标记的文档(通常超过数万个)上进行训练时,已经取得了巨大的成功。然而,由于研究领域的特殊性,政策的迭代更新速度比较快,对大量的政策数据进行手动标注,这在实际应用中可能代价昂贵且难以实现。
[0003]现有技术的不足和缺陷:第一,具有不同职能的政府机构和部门的标签系统不统一,现有的方法无法实现有效的跨部门检索。第二,现有的方法通常是基于对大量标记文档的监督模型,但手动标记的训练集创建起来既昂贵又耗时,而且任务经常会在现实世界中发生变化和演变。例如,数据标注指南、标注的粒度或下游的用例都经常会发生变化,需要重新进行标记。第三,一条政策通常有多个标签,而目前大多数方法采用多分类,即默认每条政策只有一个标签。
[0004]综上所述,现有的问题是:监督模型在政策分类任务中占主导地位,但由于缺乏大量的人工标记文档作为训练数据,使得这些高性能的监督模型无法直接应用。因此,本专利技术的主要解决以下问题:如何利用标签名称为无标注的政策语料库派生高质量的伪标签,并将其用于政策分类。

技术实现思路

[0005]针对现有技术的不足,本专利技术提出了一种大规模极弱监督多标签政策分类方法及系统,利用用户提供标签名称,而不是使用任何的标记文档,来对海量的政策数据进行分类。
[0006]为实现上述目的,本专利技术提供了如下方案:一种大规模极弱监督多标签政策分类方法,包括以下步骤:S1:基于未标记政策语料库对WoBERT进行连续的预训练,获得政策领域专用的语言模型;S2:利用所述政策领域专用的语言模型,从所述未标记政策语料库中学习与标签名称语义相关的种子词,并为每个类别种子词构建种子词汇表;
S3:利用所述种子词汇表中的类别种子词信息,为未标记的政策生成伪标签,并将带有伪标签的政策添加到伪训练集中;S4:利用所述伪训练集对所述政策领域专用的语言模型进行训练,利用训练好的所述政策领域专用的语言模型为政策进行编码操作,完成多标签政策分类。
[0007]优选的,在训练好的所述政策领域专用的语言模型最后添加了一个Sigmoid层来生成每个伪标签的概率作为模型的输出。
[0008]优选的,所述S1中,基于未标记政策语料库对WoBERT进行连续的预训练的方法为:为WoBERT词汇表添加政策领域内的新词汇;在未标记的政策语料库上实现添加新词汇的WoBERT的遮蔽语言模型的预测任务。
[0009]优选的,在未标记的政策语料库上实现添加新词汇的WoBERT的遮蔽语言模型的预测任务的方法为:随机掩盖掉输入序列中的Token;在添加新词汇的WoBERT的输出结果中取对应掩盖位置上的向量进行真实值预测。
[0010]优选的,在添加新词汇的WoBERT的输出结果中取对应掩盖位置上的向量进行真实值预测的方法为:使用CWS将每条政策分割成几个词语,获得输入令牌;将所述输入令牌转化为扩充后词汇表中对应的ID,并输入到WoBERT中;预测整个WoBERT词汇表中的掩码令牌的概率分布,获得预测结果。
[0011]优选的,所述S2中,利用所述政策领域专用的语言模型,从所述未标记政策语料库中学习与标签名称语义相关的种子词的方法为:使用政策领域专用的语言模型的遮蔽语言模型预测政策中替换成标签名称的词语,并保持原有的政策内容不变;通过收集与标签名称语义相关的政策词语构建标签的种子词汇表。
[0012]优选的,通过收集与标签名称语义相关的政策词语构建标签的种子词汇表的方法为:对于出现在政策中的标签名称,用[MASK]标记替换;使用政策领域预训练过的WoBERT语言模型对替换后的数据进行编码,编码后得到输入令牌对应的向量表示;将[MASK]的上下文嵌入向量提供给遮蔽语言模型头部,输出整个词汇表中每个单词出现在[MASK]位置的概率;基于满足预设概率的单词,构建标签的种子词汇表。
[0013]优选的,所述S3中,利用所述种子词汇表中的类别种子词信息,为未标记的政策生成伪标签的方法为:基于构建的种子词汇表在未标记子词,使用对应类别的对应标签来标记对应政策;如果对应政策包含的种子词覆盖多个类别,则用与所有类别对应的标签来标记所述对应政策。
[0014]优选的,政策d被分配的标签集合计算方法为:
[0015]其中,表示政策d中的词语,C表示类别的总数,表示类别的种子词表。
[0016]本专利技术还提供了一种大规模极弱监督多标签政策分类系统,包括:模型预训练模块、词汇表构建模块、伪标签生成模块和政策分类模块;所述模型预训练模块用于基于未标记政策语料库对WoBERT进行连续的预训练,获得政策领域专用的语言模型;所述词汇表构建模块用于利用所述政策领域专用的语言模型,从所述未标记政策语料库中学习与标签名称语义相关的种子词,并为每个类别种子词构建种子词汇表;所述伪标签生成模块用于利用所述种子词汇表中的类别种子词信息,为未标记的政策生成伪标签,并将带有伪标签的政策添加到伪训练集中;所述政策分类模块用于利用所述伪训练集对所述政策领域专用的语言模型进行训练,利用训练好的所述政策领域专用的语言模型为政策进行编码操作,完成多标签政策分类。
[0017]与现有技术相比,本专利技术的有益效果为:本专利技术提出了Weak

PMLC,一个大规模的极弱监督的多标签政策分类框架。该框架不使用任何标记数据,而只使用每个类别的标签名称就可以实现与监督模型相当的性能。
[0018]本专利技术提出了一种构建与类别相关的种子词汇表的方法,该方法使用预先训练的语言模型来预测哪些单词可以替换未标记政策语料库中的标签名称。
[0019]根据与类别相关的种子词汇表,本专利技术提出了一种基于字符串匹配的伪标签生成策略,该策略可以为政策生成高质量的伪标签,并保证分类性能。
[0020]本专利技术是第一个尝试使用标签名称对政策进行分类的,并表明标签名称是一种有效的监督文本分类类型,我们希望可以为后续的研究提供一个初步的基础。
附图说明
[0021]为了更清楚地说明本专利技术的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本专利技术的一些实施例,对于本领域普通技术人员来本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大规模极弱监督多标签政策分类方法,其特征在于,包括以下步骤:S1:基于未标记政策语料库对WoBERT进行连续的预训练,获得政策领域专用的语言模型;S2:利用所述政策领域专用的语言模型,从所述未标记政策语料库中学习与标签名称语义相关的种子词,并为每个类别种子词构建种子词汇表;S3:利用所述种子词汇表中的类别种子词信息,为未标记的政策生成伪标签,并将带有伪标签的政策添加到伪训练集中;S4:利用所述伪训练集对所述政策领域专用的语言模型进行训练,利用训练好的所述政策领域专用的语言模型为政策进行编码操作,完成多标签政策分类。2.根据权利要求1所述的大规模极弱监督多标签政策分类方法,其特征在于,在训练好的所述政策领域专用的语言模型最后添加了一个Sigmoid层来生成每个伪标签的概率作为模型的输出。3.根据权利要求1所述的大规模极弱监督多标签政策分类方法,其特征在于,所述S1中,基于未标记政策语料库对WoBERT进行连续的预训练的方法为:为WoBERT词汇表添加政策领域内的新词汇;在未标记的政策语料库上实现添加新词汇的WoBERT的遮蔽语言模型的预测任务。4.根据权利要求3所述的大规模极弱监督多标签政策分类方法,其特征在于,在未标记的政策语料库上实现添加新词汇的WoBERT的遮蔽语言模型的预测任务的方法为:随机掩盖掉输入序列中的Token;在添加新词汇的WoBERT的输出结果中取对应掩盖位置上的向量进行真实值预测。5.根据权利要求4所述的大规模极弱监督多标签政策分类方法,其特征在于,在添加新词汇的WoBERT的输出结果中取对应掩盖位置上的向量进行真实值预测的方法为:使用CWS将每条政策分割成几个词语,获得输入令牌;将所述输入令牌转化为扩充后词汇表中对应的ID,并输入到WoBERT中;预测整个WoBERT词汇表中的掩码令牌的概率分布,获得预测结果。6.根据权利要求1所述的大规模极弱监督多标签政策分类方法,其特征在于,所述S2中,利用所述政策领域专用的语言模型,从所述未标记政策语料库中学习与标签名称语义相关的种子词的方法为:使...

【专利技术属性】
技术研发人员:徐昊赵久峰宋瑞邹桐石立达赵强
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1