一种文本分类模型的鲁棒性评估方法、装置及可读介质制造方法及图纸

技术编号：34838454 阅读：13 留言：0更新日期：2022-09-08 07:34

本申请公开了一种文本分类模型的鲁棒性评估方法、装置及可读介质，其中文本分类模型的鲁棒性评估方法，包括获取原始测试集，通过原始测试集生成新测试集，根据原始测试集和新测试集对文本分类模型进行测试，获取第一测试指标结果和第二测试指标结果；根据所述第一测试指标结果与第二测试指标结果评估文本分类模型的鲁棒性。本申请实施例提出的文本分类模型的鲁棒性测试方法，采用文本生成模型增加了针对模型鲁棒性的测试数据，能够更全面地测试模型识别的稳定性。在生成鲁棒性测试数据过程中，通过文本相似度的偏移度筛选，在保证生成的新测试文本与原始测试文本的偏离程度不会过大，同时又加强了鲁棒性测试数据的质量。同时又加强了鲁棒性测试数据的质量。同时又加强了鲁棒性测试数据的质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本分类模型的鲁棒性评估方法、装置及可读介质

[0001]本申请涉及自然语言处理领域，具体涉及一种文本分类模型的鲁棒性评估方法、装置及可读介质。

技术介绍

[0002]文本分类是自然语言处理领域的一个基础任务，已经有较为稳定的模型训练和测试方案。最常见的测试方式为从文本分类任务所用的已标注数据集中按比例拆分成训练集和测试集，用此份测试集的标签与模型预测的标签对比，得到模型的准确率等测试结果。这样分割的测试集虽然能够一定程度地反映出模型的识别率，却不能很好的测试出模型的鲁棒性。

技术实现思路

[0003]本申请的目的在于至少能解决上述现有技术中的技术问题之一。
[0004]第一方面，本申请的实施例提供了一种文本分类模型的鲁棒性评估方法，所述方法包括以下步骤：获取原始测试集，所述原始测试集包括一定数量的原始测试文本；每个原始测试文本通过文本生成模型生成N个不同的新测试文本，筛选出其中与对应原始测试文本相似度最高的前M个新测试文本，并标注与对应的原始测试文本相同的标签；使用原始测试集对文本分类模型进行测试，筛选出识别正确的原始测试文本，并获得第一测试指标结果；从新测试文本中筛选出与识别正确的原始测试文本相对应的新测试文本，组成新测试集；使用新测试集对文本分类模型进行测试，获得第二测试指标结果；根据第一测试指标结果与第二测试指标结果的差值，评估文本分类模型的鲁棒性。
[0005]在一些实施例中，对所述文本分类模型进行测试时，测试指标包括准确率、召回率、精准率和F1中的至少一种。
[...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型的鲁棒性评估方法，其特征在于，所述方法包括以下步骤：获取原始测试集，所述原始测试集包括一定数量的原始测试文本；每个原始测试文本通过文本生成模型生成N个不同的新测试文本，筛选出其中与对应原始测试文本相似度最高的前M个新测试文本，并标注与对应的原始测试文本相同的标签；使用原始测试集对文本分类模型进行测试，筛选出识别正确的原始测试文本，并获得第一测试指标结果；从新测试文本中筛选出与识别正确的原始测试文本相对应的新测试文本，组成新测试集；使用新测试集对文本分类模型进行测试，获得第二测试指标结果；根据第一测试指标结果与第二测试指标结果的差值，评估文本分类模型的鲁棒性。2.根据权利要求1所述的文本分类模型的鲁棒性评估方法，其特征在于，对所述文本分类模型进行测试时，测试指标包括准确率、召回率、精准率和F1中的至少一种。3.根据权利要求1所述的文本分类模型的鲁棒性评估方法，其特征在于，所述根据第一测试指标结果与第二测试指标结果的差值，评估文本分类模型的鲁棒性，包括：计算所述第一测试指标结果与所述第二测试指标结果的差值，所述差值越小，所述文本分类模型的鲁棒性越好。4.一种文本分类模型的鲁棒性评估方法，其特征在于，所述方法包括以下步骤：获取原始测试集，所述原始测试集包括一定数量的原始测试文本；使用原始测试集对文本分类模型进行测试，筛选出识别正确的原始测试文本，并获得第一测试指标结果；每个识别正确的原始测试文本通过文本生成模型生成N个不同的新测试文本，筛选出其中与对应原始测试文本相似度...

【专利技术属性】
技术研发人员：李依宁，肖龙源，李稀敏，李威，
申请(专利权)人：厦门快商通科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人