一种标签修正的方法及系统技术方案

技术编号:30163573 阅读:12 留言:0更新日期:2021-09-25 15:18
本发明专利技术公开了一种标签修正的方法及系统,方法包括以下步骤:S1:获取所有文本及每个文本的原始标签,每个标签至少有2个对应的文本;S2:采用交互验证方法对所有文本进行预测,得到预测结果;S3:根据预测结果计算准确度;S4:对每个文本的预测结果进行处理;S5:重复执行所述步骤S2至S4,直到计算得到的准确度数值不变,得到修正后的标签及对应的文本。该方法采用语义分类模型和交互验证方法对文本的标注标签进行分析,若标签发生错误时会进行修正,修正过程减少人工参与,并能快速修护错误标签同时优化文本不平衡的问题。同时优化文本不平衡的问题。同时优化文本不平衡的问题。

【技术实现步骤摘要】
一种标签修正的方法及系统


[0001]本专利技术涉及数据处理方法
,具体涉及一种标签修正的方法及系统。

技术介绍

[0002]训练语义分类模型时经常会遇到标签错误的文本,进而影响模型准确度。然而,人工审查重新标注文本需花费大量人力和时间。因此亟需自动化修复标签错误的方法。

技术实现思路

[0003]针对现有技术中的缺陷,本专利技术提供一种标签修正的方法及系统,采用语义分类模型和交互验证方法对文本的标注标签进行分析,对错误标签进行修正,修正过程减少人工参与,并能快速修护错误标签同时优化文本不平衡的问题。
[0004]第一方面,本专利技术实施例提供的一种标签修正的方法,包括以下步骤:
[0005]S1:获取所有文本及每个文本的原始标签,每个标签至少有2个对应的文本;
[0006]S2:采用交互验证方法对所有文本进行预测,得到预测结果;
[0007]S3:根据预测结果计算准确度;
[0008]S4:对每个文本的预测结果进行处理;
[0009]S5:重复执行所述步骤S2至S4,直到计算得到的准确度数值不变,得到修正后的标签及对应的文本。
[0010]可选地,步骤S2具体包括:
[0011]S21:根据标签对应的文本数量比例进行切分,将所有文本分成k份,k为整数,k≥2;
[0012]S22:每次取一份作为验证集,将剩下的k

1份作为训练集进行训练,获得语义分类模型;
[0013]S23:使用所述语义分类模型对所述验证集进行预测;
[0014]S24:将所述步骤S22至S23重复执行k次,得到k份验证集的预测结果。
[0015]可选地,预测结果包括k份验证集的原始标签、预测标签和信心分数。
[0016]可选地,使用所述语义分类模型对所述验证集进行预测,包括:
[0017]使用语义分类模型计算验证集的信心分数,所述信心分数表示语义分类模模型预测的机率,信心分数的取值范围为0

1,信心分数的高低表示语义分类模型对预测结果正确的信心高低。
[0018]可选地,使用所述语义分类模型对所述验证集进行预测,还包括:
[0019]将信心分数最高的验证集所对应的标签作为预测标签。
[0020]可选地,所述使用语义分类模型计算验证集的信心分数,包括:计算验证集信心分数的公式为:
[0021]其中,P
j
为第j类标签的信心分数,h为标签类别,c为标签类别总数,x为文字的特征向量,x
T
为x的转置矩阵,w为语义分类模型参数,且
[0022]可选地,根据预测结果计算准确度的公式为:其中,D为准确度,n为文本总数,y
i
为第i个文本的原始标签,y
i

为第i个文本的预测标签。
[0023]可选地,对每个文本的预测结果进行处理,具体包括:
[0024]若预测结果正确且信心分数大于等于0.5的文本,则保留原始标签;
[0025]若预测结果正确且信心分数小于0.5的文本,则进行文本增强;
[0026]若预测结果错误且信心分数大于等于0.85的文本,则将原始标签修改成预测标签;
[0027]若预测结果错误且信心分数大于等于0.5且小于等于0.85的文本,则进行人工审查;
[0028]若预测结果错误且信心分数小于0.5的文本,则不修改。
[0029]可选地,当原始标签与预测标签相等时,预测结果正确;当原始标签和预测标签不相等时,预测结果错误。
[0030]第二方面,本专利技术实施例提供的一种标签修正的系统,获取模块、预测模块、计算模块、分析模块和结果输出模块,
[0031]所述获取模块用于获取所有文本及每个文本的原始标签,每个标签至少有2个对应的文本;
[0032]所述预测模块采用交互验证方法对所有文本进行预测,得到预测结果;
[0033]所述计算模块根据预测结果计算准确度;
[0034]所述分析模块用于对每个文本的预测结果进行处理;
[0035]所述结果输出模块用于在计算得到的准确度数值不变,得到修正后的标签及对应的文本。
[0036]本专利技术的有益效果:
[0037]本专利技术公开了一种标签修正的方法及系统,采用语义分类模型和交互验证方法对文本进行分析,若标签发生错误时会进行修正,修正过程减少人工参与,并能快速修护错误标签同时优化文本不平衡的问题。
附图说明
[0038]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
[0039]图1示出了本专利技术第一实施例所提供的一种标签修正的方法的流程图;
[0040]图2示出了本专利技术第二实施例所提供的一种标签修正的系统的结构框图;
[0041]图3示出了本专利技术第三实施例所提供的一种用于标签修正的智能终端的结构框图。
具体实施方式
[0042]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0043]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0044]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0045]还应当进一步理解,本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0046]如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0047]需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本专利技术所属领域技术人员所理解的通常意义。
[0048]如图1所示,示出了本专利技术第一实施例所提供的一种标签修正的方法的流程图,方法包括以下步骤:
[0049]S1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标签修正的方法,其特征在于,包括以下步骤:S1:获取所有文本及每个文本的原始标签,每个标签至少有2个对应的文本;S2:采用交互验证方法对所有文本进行预测,得到预测结果;S3:根据预测结果计算准确度;S4:对每个文本的预测结果进行处理;S5:重复执行所述步骤S2至S4,直到计算得到的准确度数值不变,得到修正后的标签及对应的文本。2.根据权利要求1所述的方法,其特征在于,所述步骤S2具体包括:S21:根据标签对应的文本数量比例进行切分,将所有文本分成k份,k为整数,k≥2;S22:每次取一份作为验证集,将剩下的k

1份作为训练集进行训练,获得语义分类模型;S23:使用所述语义分类模型对所述验证集进行预测;S24:将所述步骤S22至S23重复执行k次,得到k份验证集的预测结果。3.根据权利要求2所述的方法,其特征在于,所述预测结果包括k份验证集的原始标签、预测标签和信心分数。4.根据权利要求3所述的方法,其特征在于,使用所述语义分类模型对所述验证集进行预测,包括:使用语义分类模型计算验证集的信心分数,所述信心分数表示语义分类模模型预测的机率,信心分数的取值范围为0

1,信心分数的高低表示语义分类模型对预测结果正确的信心高低。5.根据权利要求4所述的方法,其特征在于,使用所述语义分类模型对所述验证集进行预测,还包括:将信心分数最高的验证集所对应的标签作为预测标签。6.根据权利要求5所述的方法,其特征在于,所述使用语义分类模型计算验证集的信心分数,包括:计算验证集信心分数的公式为:其中,P
...

【专利技术属性】
技术研发人员:简仁贤佘昌宪
申请(专利权)人:竹间智能科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1