基于样本增强和自训练的低资源文本智能评阅方法和装置制造方法及图纸

技术编号：36934700 阅读：21 留言：0更新日期：2023-03-22 18:56

基于样本增强和自训练的低资源文本智能评阅方法和装置，属于自然语言处理的技术领域，包括：样本增强：用于完成对输入的评阅样本的增强任务，得到增强后的评阅样本；样本困难性评价：用于在评阅模型微调和自训练过程中计算每个样本的困难性；评阅模型微调及自训练：用于基于样本增强后的评阅样本对评阅模型进行微调训练；然后引入大量同源无标记数据进行伪标记预测并扩充到原训练集中，对评阅模型进行自训练。本发明专利技术能更好适合于评阅样本数量有限的情况，提升了数据增强效果和模型的鲁棒性；能增强评阅模型在训练数据中存在噪音样本和简单样本时的性能；能够提升伪标记的准确率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
基于样本增强和自训练的低资源文本智能评阅方法和装置

[0001]本专利技术公开基于样本增强和自训练的低资源文本智能评阅方法和装置，属于自然语言处理的

技术介绍

[0002]文本智能评阅是人工智能和自然语言处理研究领域的重要问题，是指对于给定知识点的参考答案文本、若干学生答案文本以及预先定义的分数段类型，采用神经网络模型对学生答案所属分数类型进行判定。由于专业领域文本内容需要专家评阅，获取标记数据成本高昂，导致只有极少量样本可用的低资源情况。智能评阅能够降低人工评阅成本，去除个体偏见，具有重要实用价值。
[0003]现有文本理解技术主要采用深度学习，依赖大量样本以监督学习方式训练模型，较少的样本则会严重影响模型性能。针对样本数量少的情况，相关工作通常采用数据增强技术来增强初始少量样本的信息量。
[0004]例如中国专利文献CN115048940A公开基于实体词属性特征和回译的中文金融文本数据增强方法，其中使用“回译”和专业词汇替换对文本进行增强。但是“回译”数据增强技术受限于翻译模型的翻译质量，尤其对于专业文本的“回译”增强效果不佳。对于文本对形式的专业领域评阅样本，“回译”并不能有效增强文本对的交互信息，仅可增强单文本的语义信息。
[0005]另外，基于初始少量样本并引入大量无标记数据进行模型自训练也是突破极少样本限制进而提升模型性能的有效方式，例如中国专利文献CN114357153A公开一种文本分类模型训练方法、装置、文本分类方法及装置，其中利用初始少量样本训练模型后预测无标记数据...

【技术保护点】

【技术特征摘要】
1.基于样本增强和自训练的低资源文本智能评阅方法，其特征在于，包括：（1）样本增强：用于完成对输入的评阅样本的增强任务，得到增强后的评阅样本；（2）样本困难性评价：用于在评阅模型微调和自训练过程中计算每个样本的困难性；（3）评阅模型微调及自训练：用于基于样本增强后的评阅样本对评阅模型进行微调训练；然后引入大量同源无标记数据进行伪标记预测并扩充到原训练集中，对评阅模型进行自训练。2.根据权利要求1所述的基于样本增强和自训练的低资源文本智能评阅方法，其特征在于，所述步骤（1）所述样本增强的具体方法包括，对输入的少量评阅样本进行增强：初始少量评阅样本包括多个知识点上的若干文本推理样本；每个知识点上的样本表示为的集合，其中为包含代表该知识点的参考答案文本和学生答案文本的文本对形式，推理标记表示文本对的蕴含和非蕴含两种推理关系；其中，蕴含关系表示学生答案文本在参考答案文本所关联的知识点上与参考答案文本语义一致，非蕴含关系则表示不一致；（1
‑
1）利用少量评阅样本构建NLI任务的蕴含、矛盾、中立三分类样本来进行样本增强：（1
‑1‑
1）构造蕴含样本，使得同知识点中两个语义一致的单文本得到信息交互,从单个知识点的样本中采样构造，包含两类构造方式：参考答案文本和呈蕴含关系的学生答案文本组成的文本对；同参考答案文本呈蕴含关系的任意两个学生答案文本组成的文本对，其标签，表蕴含；（1
‑1‑
2）构造矛盾样本，使得同知识点中两个语义不一致的单文本得到信息交互,从单个知识点的样本中采样构造，包含两类构造方式：参考答案文本和呈非蕴含关系的学生答案文本组成的文本对；同参考答案文本分别呈蕴含和非蕴含关系的任意两个学生答案文本组成的文本对，其标签，表矛盾；（1
‑1‑
3）构造中立样本，使得不同知识点，即不同文本关注点，其中的单文本的语义信息得到交互，从不同知识点采样进行构造，包括某一个知识点的参考答案文本或学生答案文本，和另一知识点的学生答案文本的交互文本对，其标签，表中立；（1
‑
2）评阅模型对参考答案文本和学生答案文本位置调换的文本对样本进行预测时，其预测结果不变，将包含参考答案文本的文本对进行翻转增强，其标签不变；定义蕴含、矛盾、中立三类增强样本的构造比例分别为，许可一般情况，且，优选的，。3.根据权利要求1所述的基于样本增强和自训练的低资源文本智能评阅方法，其特征在于，所述步骤（2）中样本困难性评价的具体方法，包括：（2
‑
1）使用交叉熵损失函数训练评阅模型，经过若干轮训练让评阅模型拟合简单样本；交叉熵损失如公式(I)：本；交叉熵损失如公式(I)：
其中，为类别标签的独热向量；为评阅模型预测的概率分布；（2
‑
2）计算评阅模型优化每个样本时反向传播的梯度大小来量化样本的困难性：评阅模型通过多分类器输出概率分布，为神经网络给分类器的输入，推导梯度知分别是的第元素值；定义样本困难性量化值为梯度模长之和的一半：为梯度模长之和的一半：其中，样本困难性量化值；为表示样本类别的标签集合，为样本所属类别的标签；为概率分布的第元素值，代表着评阅模型预测出样本为第类的概率；公式(III)所示正态分布函数为加权函数，优选的，：：：：其中，根据困难性量化值，利用函数对样本的交叉熵损失进行加权，得到如公式(IV)所示难度敏感损失函数。4.根据权利要求1所述的基于样本增强和自训练的低资源文本智能评阅方法，其特征在于，所述步骤（3）评阅模型微调及自训练中：微调是指对评阅模型参数进行微调，将评阅样本中的文本对输入给所述...

【专利技术属性】
技术研发人员：孙宇清，杨涛，马磊，袁峰，
申请(专利权)人：山东山大鸥玛软件股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人