基于多层级标签的信访文本分类方法、装置、设备及介质制造方法及图纸

技术编号：35791982 阅读：46 留言：0更新日期：2022-12-01 14:41

本申请适用于文本分类技术领域，提供了基于多层级标签的信访文本分类方法、装置、设备及介质，方法包括：提取信访文本中的重要句；以重要句组为输入运行分类模型，得到第一标签结果；以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入运行标签排序模型，得到第二标签结果；本申请通过多层级标签分步预测，能够降低信访文本分类的难度；同时利用共享参数将第一标签结果和第二标签结果的预测过程联系起来，保证了针对第二标签预测的结果准确性，相比现有技术具有更好的准确性和效率。确性和效率。确性和效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于多层级标签的信访文本分类方法、装置、设备及介质

[0001]本申请属于文本分类
，尤其涉及基于多层级标签的信访文本分类方法、装置、设备及介质。

技术介绍

[0002]信访事件分类是将信访人的信访内容划分到对应的事件类别，以便于相应的部门进行处理。
[0003]现有技术存在着一些利用神经网络执行信访文本分类的方法，这些方法在面临着信访文本可选分类标签数量多的问题时，往往无法高效准确地给出分类结果，尤其是对于少样本的类别标签，其分类识别效果往往不能令人满意。
[0004]因此，如何提供一种能够更为高效准确的对信访文本进行分类的方法成为了业内亟需解决的技术问题。

技术实现思路

[0005]本申请实施例提供了基于多层级标签的信访文本分类方法、装置、设备及介质，可以解决信访文本分类准确性不足的问题。
[0006]第一方面，本申请实施例提供了一种基于多层级标签的信访文本分类方法，包括：
[0007]提取信访文本中的重要句；所述重要句是指所述信访文本中符合预设条件的句子；
[0008]以重要句组为输入运行分类模型，得到第一标签结果；所述重要句组包括一个或多个所述重要句；
[0009]以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入运行标签排序模型，得到第二标签结果；
[0010]所述分类模型和所述标签排序模型均是基于样本训练得到的深度学习模型的至少一部分，且所述分类模型中用于提取特征的至少一部分参数和所述标签排序模型中用于提取特征...

【技术保护点】

【技术特征摘要】
1.一种基于多层级标签的信访文本分类方法，其特征在于，包括：提取信访文本中的重要句；所述重要句是指所述信访文本中符合预设条件的句子；以重要句组为输入运行分类模型，得到第一标签结果；所述重要句组包括一个或多个所述重要句；以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入运行标签排序模型，得到第二标签结果；所述分类模型和所述标签排序模型均是基于样本训练得到的深度学习模型的至少一部分，且所述分类模型中用于提取特征的至少一部分参数和所述标签排序模型中用于提取特征的至少一部分参数共享。2.如权利要求1所述的基于多层级标签的信访文本分类方法，其特征在于，所述分类模型包括编码器和分类输出层；所述标签排序模型包括所述编码器和预测输出层；所述编码器、所述分类输出层以及所述预测输出层构成预设的信访文本分类模型的至少一部分；所述信访文本分类模型是基于样本训练得到的深度学习模型；所述编码器用于：以所述重要句组为输入，提取得到第一信访文本特征；或者，以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入，提取得到第二信访文本特征；所述分类输出层用于根据所述第一信访文本特征，在预设的第一标签集合中确定所述重要句组所属的信访文本对应的至少一个第一标签结果；所述预测输出层用于根据所述第二信访文本特征，在一一对应于所述第一标签结果的第二标签集合中确定所述重要句所属的信访文本对应的至少一个第二标签结果。3.如权利要求2所述的基于多层级标签的信访文本分类方法，其特征在于，所述信访文本分类模型的训练过程包括领域预训练；所述预训练包括第一训练、第二训练或者联合预训练；所述第一训练是基于掩码语言模型MLM进行的自监督训练；所述第二训练是基于对比学习进行的自监督训练；所述联合训练包括同时进行的所述第一训练和所述第二训练。4.如权利要求2所述的基于多层级标签的信访文本分类方法，其特征在于，所述信访文本分类模型还包括半监督训练层；所述信访文本分类模型的训练过程包括多任务训练；所述多任务训练包括：将多任务训练样本中的一个迷你批输入所述编码器，得到所述分类输出层输出的第一任务结果、所述预测输出层输出的第二任务结果以及所述半监督训练层输出的第三任务结果；所述第三任务结果是针对不存在真值的样本进行KL散度一致性预测得到的结果；分别基于所述第一任务结果和预设的第一损失函数、所述第二任务结果和预设的第二损失函数、所述第三任务结果和第三损失函数计算梯度并更新所述信访文本分类模型的参数；返回所述将多任务训练样本中的一个迷你批输入所述编码器的步骤，直至满足预设的迭代停止条件。5.如权利要求1至4中任一项所述的基于多...

【专利技术属性】
技术研发人员：宁洪波，屈玉涛，王文敏，刘博，杜俊博，
申请(专利权)人：中电科新型智慧城市研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人