一种大规模极弱监督多标签政策分类方法及系统技术方案

技术编号：37603968 阅读：22 留言：0更新日期：2023-05-18 11:55

本发明专利技术公开了一种大规模极弱监督多标签政策分类方法及系统，包括以下步骤：基于未标记政策语料库对WoBERT进行连续的预训练，获得政策领域专用的语言模型；利用所述政策领域专用的语言模型，从所述未标记政策语料库中学习与标签名称语义相关的种子词，并为每个类别种子词构建种子词汇表；利用所述种子词汇表中的类别种子词信息，为未标记的政策生成伪标签，并将带有伪标签的政策添加到伪训练集中；利用所述伪训练集对所述政策领域专用的语言模型进行训练，利用训练好的所述政策领域专用的语言模型为政策进行编码操作，完成多标签政策分类。本发明专利技术利用用户提供标签名称，而不是使用任何的标记文档，来对海量的政策数据进行分类。类。类。

全部详细技术资料下载

【技术实现步骤摘要】
一种大规模极弱监督多标签政策分类方法及系统

[0001]本专利技术属于人工智能的自然语言处理领域，具体涉及一种大规模极弱监督多标签政策分类方法及系统。

技术介绍

[0002]随着电子政务的发展，我国的多个地方政府都在发展基于互联网的开放政策平台，这些在线平台要求对政策进行分类。然而，在实际任务中，由政府工作人员手动标记政策既昂贵又耗时。因此，有必要为政府自动分类这些政策。将大量的政策自动划分到预定义的类别中可以看作是文本分类，这是自然语言处理（NLP）和机器学习中的一项基本任务。传统的机器学习方法如朴素贝叶斯算法、支持向量机等技术的分类效果相对较差。近年来，由于深度学习具有强大的表示学习能力，能够有效地捕获文本序列中的高阶、远程语义依赖性，许多研究人员提出了基于深度学习的政策分类器，包括CNNs和RNNs等。这些基于深度学习的分类器在大规模人工标记的文档（通常超过数万个）上进行训练时，已经取得了巨大的成功。然而，由于研究领域的特殊性，政策的迭代更新速度比较快，对大量的政策数据进行手动标注，这在实际应用中可能代价昂贵且难以实现。
[000本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种大规模极弱监督多标签政策分类方法，其特征在于，包括以下步骤：S1：基于未标记政策语料库对WoBERT进行连续的预训练，获得政策领域专用的语言模型；S2：利用所述政策领域专用的语言模型，从所述未标记政策语料库中学习与标签名称语义相关的种子词，并为每个类别种子词构建种子词汇表；S3：利用所述种子词汇表中的类别种子词信息，为未标记的政策生成伪标签，并将带有伪标签的政策添加到伪训练集中；S4：利用所述伪训练集对所述政策领域专用的语言模型进行训练，利用训练好的所述政策领域专用的语言模型为政策进行编码操作，完成多标签政策分类。2.根据权利要求1所述的大规模极弱监督多标签政策分类方法，其特征在于，在训练好的所述政策领域专用的语言模型最后添加了一个Sigmoid层来生成每个伪标签的概率作为模型的输出。3.根据权利要求1所述的大规模极弱监督多标签政策分类方法，其特征在于，所述S1中，基于未标记政策语料库对WoBERT进行连续的预训练的方法为：为WoBERT词汇表添加政策领域内的新词汇；在未标记的政策语料库上实现添加新词汇的WoBERT的遮蔽语言模型的预测任务。4.根据权利要求3所述的大规模极弱监督多标签政策分类方法，其特征在于，在未标记的政策语料库上实现添加新词汇的WoBERT的遮蔽语言模型的预测任务的方法为：随机掩盖掉输入序列中的Token；在添加新词汇的WoBERT的输出结果中取对应掩盖位置上的向量进行真实值预测。5.根据权利要求4所述的大规模极弱监督多标签政策分类方法，其特征在于，在添加新词汇的WoBERT的输出结果中取对应掩盖位置上的向量进行真实值预测的方法为：使用CWS将每条政策分割成几个词语，获得输入令牌；将所述输入令牌转化为扩充后词汇表中对应的ID，并输入到WoBERT中；预测整个WoBERT词汇表中的掩码令牌的概率分布，获得预测结果。6.根据权利要求1所述的大规模极弱监督多标签政策分类方法，其特征在于，所述S2中，利用所述政策领域专用的语言模型，从所述未标记政策语料库中学习与标签名称语义相关的种子词的方法为：使...

【专利技术属性】
技术研发人员：徐昊，赵久峰，宋瑞，邹桐，石立达，赵强，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人