一种基于可解释模型的文本持续分类方法技术

技术编号：38884647 阅读：8 留言：0更新日期：2023-09-22 14:13

本发明专利技术涉及一种基于可解释模型的文本持续分类方法，包括文本分类、可持续学习、可解释学习、经验回放等多方面技术，属于自然处理技术领域。本发明专利技术包括两大部分。第一部分是自解释的文本分类模型，输入样本，输出对应样本的预测类别和可解释词；第二部分为特征池，用以存储自解释模型输出的可解释特征，作为回放的旧任务特征。这里自解释的文本分类模型具体为融合短语结构知识的自解释模型，包含三层，第一层输入层，通过编码器得到文本表示，并进一步得到输入样本对应的短语结构知识。第二层为短语结构知识进一步融合的解释层，第三层为线性层，将解释层的输出映射到类别向量空间，得到预测类别标签和样本的解释。到预测类别标签和样本的解释。到预测类别标签和样本的解释。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于可解释模型的文本持续分类方法

[0001]本专利技术涉及一种文本持续分类方法，具体涉及一种基于可解释模型的文本持续分类方法，包括文本分类、可持续学习、可解释学习、经验回放等多方面技术，属于自然处理

技术介绍

[0002]目前持续学习技术尚未发展成熟，很多方法的持续学习性能并没有达到预期效果，该领域的研究发展空间巨大，也是促进各种深度学习模型能够更加广泛地应用于实际场景中的重要技术之一。
[0003]文本分类(Text Classification，TC)任务，旨在给文本标记预定义的标签，以此判定给定文本的分类类别。该技术是自然语言处理中最重要及最基础的任务之一。目前文本分类技术发展十分成熟，在给定充分标记数据集的监督学习下，其表现十分优异。然而，与大多数基于深度学习的任务类似，传统的模型大多没有持续学习的能力且具有不可解释性。
[0004]文本持续分类的主要目标是减轻分类器在学习新任务数据时对旧任务知识的遗忘程度，使得分类器在顺序学完新任务后，在新旧任务上的表现都很好。比较典型的持续学习方法是经验回放，也就是在新数据训练时穿插着训练旧任务的数据。目前基于经验回放的持续学习方法回放的都是旧任务的原始样本或用于替代旧样本的生成式伪数据样本。然而，由于回放的数据是少量的，所以如何使得模型通过少量样本回忆旧知识就成为模型能否持续分类的关键。研究表明，当前提出的一些可解释文本分类模型可以在输出解释的同时模型分类准确率，该方法通过找到模型重点关注样本特征，进而通过这些特征提升分类器在数据集上的表...

【技术保护点】

【技术特征摘要】
1.一种基于可解释模型的文本持续分类方法，其特征在于包括以下步骤：步骤1：融合短语结构知识的文本表示输入，按批次(batch)输入；设当前学习的任务为D
i
，若当前任务不是第一个任务，即i不等于0，则此时特征池不为空的前提下，且当前的批次计数为α的倍数，则从特征池中随机抽取1个批次(batch)特征来回放学习，即此时学习的数据为特征池中旧任务的特征；否则输入的就是当前任务的数据；步骤1
‑
1：获取文本编码使用编码器将输入文本编码为文本表示向量Word Embeddings；步骤1
‑
2：对新任务的输入进行短语结构信息获取短语结构信息通过将步骤2
‑
1得到的编码向量利用语法分析解析为短语结构树，如可使用NLTK解析器来获取句子对应的短语结构树；若是回放样本...

【专利技术属性】
技术研发人员：张华平，谌立凤，岳远，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人