一种标签修正的方法及系统技术方案

技术编号：30163573 阅读：12 留言：0更新日期：2021-09-25 15:18

本发明专利技术公开了一种标签修正的方法及系统，方法包括以下步骤：S1：获取所有文本及每个文本的原始标签，每个标签至少有2个对应的文本；S2：采用交互验证方法对所有文本进行预测，得到预测结果；S3：根据预测结果计算准确度；S4：对每个文本的预测结果进行处理；S5：重复执行所述步骤S2至S4，直到计算得到的准确度数值不变，得到修正后的标签及对应的文本。该方法采用语义分类模型和交互验证方法对文本的标注标签进行分析，若标签发生错误时会进行修正，修正过程减少人工参与，并能快速修护错误标签同时优化文本不平衡的问题。同时优化文本不平衡的问题。同时优化文本不平衡的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种标签修正的方法及系统

[0001]本专利技术涉及数据处理方法
，具体涉及一种标签修正的方法及系统。

技术介绍

[0002]训练语义分类模型时经常会遇到标签错误的文本，进而影响模型准确度。然而，人工审查重新标注文本需花费大量人力和时间。因此亟需自动化修复标签错误的方法。

技术实现思路

[0003]针对现有技术中的缺陷，本专利技术提供一种标签修正的方法及系统，采用语义分类模型和交互验证方法对文本的标注标签进行分析，对错误标签进行修正，修正过程减少人工参与，并能快速修护错误标签同时优化文本不平衡的问题。
[0004]第一方面，本专利技术实施例提供的一种标签修正的方法，包括以下步骤：
[0005]S1：获取所有文本及每个文本的原始标签，每个标签至少有2个对应的文本；
[0006]S2：采用交互验证方法对所有文本进行预测，得到预测结果；
[0007]S3：根据预测结果计算准确度；
[0008]S4：对每个文本的预测结果进行处理；
[0009]S5：重复执行所述步骤S2至S4，直到计算得到的准确度数值不变，得到修正后的标签及对应的文本。
[0010]可选地，步骤S2具体包括：
[0011]S21:根据标签对应的文本数量比例进行切分，将所有文本分成k份，k为整数，k≥2；
[0012]S22:每次取一份作为验证集，将剩下的k
‑
1份作为训练集进行训练，获得语义分类模型；
[0013]S23:使用所述语义分类模...

【技术保护点】

【技术特征摘要】
1.一种标签修正的方法，其特征在于，包括以下步骤：S1：获取所有文本及每个文本的原始标签，每个标签至少有2个对应的文本；S2：采用交互验证方法对所有文本进行预测，得到预测结果；S3：根据预测结果计算准确度；S4：对每个文本的预测结果进行处理；S5：重复执行所述步骤S2至S4，直到计算得到的准确度数值不变，得到修正后的标签及对应的文本。2.根据权利要求1所述的方法，其特征在于，所述步骤S2具体包括：S21:根据标签对应的文本数量比例进行切分，将所有文本分成k份，k为整数，k≥2；S22:每次取一份作为验证集，将剩下的k
‑
1份作为训练集进行训练，获得语义分类模型；S23:使用所述语义分类模型对所述验证集进行预测；S24:将所述步骤S22至S23重复执行k次，得到k份验证集的预测结果。3.根据权利要求2所述的方法，其特征在于，所述预测结果包括k份验证集的原始标签、预测标签和信心分数。4.根据权利要求3所述的方法，其特征在于，使用所述语义分类模型对所述验证集进行预测，包括：使用语义分类模型计算验证集的信心分数，所述信心分数表示语义分类模模型预测的机率，信心分数的取值范围为0
‑
1，信心分数的高低表示语义分类模型对预测结果正确的信心高低。5.根据权利要求4所述的方法，其特征在于，使用所述语义分类模型对所述验证集进行预测，还包括：将信心分数最高的验证集所对应的标签作为预测标签。6.根据权利要求5所述的方法，其特征在于，所述使用语义分类模型计算验证集的信心分数，包括:计算验证集信心分数的公式为：其中，P
...

【专利技术属性】
技术研发人员：简仁贤，佘昌宪，
申请(专利权)人：竹间智能科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人