文本分类训练语料自动平衡方法技术

技术编号:39900074 阅读:8 留言:0更新日期:2023-12-30 13:14
本发明专利技术提供一种文本分类训练语料自动平衡方法

【技术实现步骤摘要】
文本分类训练语料自动平衡方法、系统、设备和存储介质


[0001]本专利技术涉及数据处理
,具体地涉及一种文本分类训练语料自动平 衡方法

装置

设备和存储介质


技术介绍

[0002]文本分类是一种常见的自然语言处理任务,要求能把输入的文本数据进行 正确的意图分类,意图分类即基于输入的语料数据判断识别用户的具体使用意 图,根据不同使用意图可将输入的语料数据整体划分为分属于几大领域的使用 意图,每个意图分类都有相应的训练语料用于训练意图分类模型

在文本分类 模型的训练过程中,理想状态下各分类的训练语料数量应该大致相等,如果在 数量上出现严重的不平衡,会造成数量少的分类的特征丢失在训练过程中,使 得但凡是和大数量分类中的语料有点儿相似的语料都会被分到大分类里,从而 出现许多错误

[0003]然而,在实际的训练过程中,这种理想中的平衡很难自然实现,对于智能 冰箱,语料可能包括食材相关内容

音乐相关内容

菜谱相关内容

当日热点 新闻等内容,各种内容在使用过程中被提及的频率差别很大,训练语料的数量 差距很大,难以有效对文本分类模型进行训练,从而会造成各个功能的体验参 差不齐


技术实现思路

[0004]本专利技术的目的在于提供一种文本分类训练语料自动平衡方法

装置

设 备和存储介质

[0005]本专利技术提供一种文本分类训练语料自动平衡方法,其特征在于,包括步骤:
[0006]获取不同意图分类的已标注语料数据;
[0007]基于所述已标注语料数据,统计获取句式模板;
[0008]基于不同意图分类的所述已标注语料数据的数量,分别设置不同意图分类 的生成系数;
[0009]分别根据不同意图分类的所述生成系数,根据所述句式模板自动生成对应 数量的训练语料,使不同意图分类的训练语料数量比例满足预设条件

[0010]作为本专利技术的进一步改进,所述获取不同意图分类的已标注语料数据,具 体包括:
[0011]获取不同意图分类的来自用户真实输入的已标注语料数据

[0012]作为本专利技术的进一步改进,所述基于所述已标注语料数据,统计获取句式 模板,具体包括:
[0013]识别统计所述已标注语料数据中槽位标签及所述槽位标签所对应词语;
[0014]将所述槽位标签转换为槽位,使所述已标注语料数据转换为句式模板;
[0015]将所述槽位标签所对应词语保存为对应所述槽位的槽位值

[0016]作为本专利技术的进一步改进,所述基于所述已标注语料数据,统计获取句式 模板,
还包括:
[0017]分别将所述槽位

所述槽位值和所述语料生成模板进行去重处理

[0018]作为本专利技术的进一步改进,还包括:
[0019]获取补充的所述槽位标签所对应的词语,将其保存为所述槽位值

[0020]作为本专利技术的进一步改进,所述根据所述句式模板自动生成对应数量的训 练语料,具体包括:
[0021]获取所述句式模板和所述槽位值;
[0022]替换所述句式模板中所述槽位的对应所述槽位值,组合生成对应数量的所 述训练语料

[0023]作为本专利技术的进一步改进,还包括:
[0024]统计不同意图分类训练集中自动生成的所述训练语料数量分布;
[0025]基于不同意图分类的所述训练语料数量分布设置平衡目标数量;
[0026]当存在一意图分类训练集中训练语料数量少于所述平衡目标数量时,追加 生成所述训练语料直至满足所述平衡目标数量

[0027]基于同一专利技术构思,本专利技术还提供一种文本分类训练语料自动平衡装置, 包括:
[0028]数据获取模块,其被配置用于获取不同意图分类的已标注语料数据;
[0029]句式模板生成模块,其被配置用于基于所述已标注语料数据,统计获取句 式模板;
[0030]生成系数获取模块,其被配置用于基于不同意图分类的所述已标注语料数 据的数量,分别设置不同意图分类的生成系数

[0031]训练语料生成模块,其被配置用于分别根据不同意图分类的所述生成系数, 根据所述句式模板自动生成对应数量的训练语料,使不同意图分类的训练语料 数量比例满足预设条件

[0032]基于同一专利技术构思,本专利技术还提供一种电器设备,包括:
[0033]存储器,用于存储可执行指令;
[0034]处理器,用于运行所述存储器存储的可执行指令时,实现上述的文本分类 训练语料自动平衡方法

[0035]基于同一专利技术构思,本专利技术还提供一种冰箱,包括:
[0036]存储器,用于存储可执行指令;
[0037]处理器,用于运行所述存储器存储的可执行指令时,实现上述的文本分类 训练语料自动平衡方法

[0038]基于同一专利技术构思,本专利技术还提供一种计算机可读存储介质,其存储有可 执行指令,所述可执行指令被处理器执行时实现上述的文本分类训练语料自动 平衡方法

[0039]本专利技术的有益效果是:基于已标注数据生成句式模板,并基于不同意图分 类的已标注数据数量分别设置生成系数,通过句式模板根据生成系数自动生成 对应数量的训练语料以平衡各意图分类训练集内的训练语料数量,实现了自动 平衡训练语料数量,所使用的方法流程简单,不涉及复杂算法步骤,运行效率 高

并且,用于生成句式模板的已标注数据为真实的用户输入数据,基于其所 生成的训练语料可靠度高,贴近用户的语言使用习惯,从而能够提高文本分类 模型的识别准确率

附图说明
[0040]图1是本专利技术一实施方式中的文本分类训练语料自动平衡方法的步骤示意 图

[0041]图2是本专利技术一实施方式中的基于所述已标注语料数据,统计获取句式模 板的步骤示意图

[0042]图3是本专利技术一实施方式中的分别根据不同意图分类的所述生成系数,根 据所述句式模板自动生成对应数量的训练语料,使不同意图分类的训练语料数 量比例满足预设条件的步骤示意图

[0043]图4是本专利技术一实施方式中的补充步骤示意图

[0044]图5是本专利技术一实施方式中的文本分类训练语料自动平衡装置示意图

具体实施方式
[0045]为使本申请的目的

技术方案和优点更加清楚,下面将结合本申请具体实 施方式及相应的附图对本申请技术方案进行清楚

完整地描述

显然,所描述 的实施方式仅是本申请一部分实施方式,而不是全部的实施方式
。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本分类训练语料自动平衡方法,其特征在于,包括步骤:获取不同意图分类的已标注语料数据;基于所述已标注语料数据,统计获取句式模板;基于不同意图分类的所述已标注语料数据的数量,分别设置不同意图分类的生成系数;分别根据不同意图分类的所述生成系数,根据所述句式模板自动生成对应数量的训练语料,使不同意图分类的训练语料数量比例满足预设条件
。2.
根据权利要求1所述的文本分类训练语料自动平衡方法,其特征在于,所述获取不同意图分类的已标注语料数据,具体包括:获取不同意图分类的来自用户真实输入的已标注语料数据
。3.
根据权利要求1所述的文本分类训练语料自动平衡方法,其特征在于,所述基于所述已标注语料数据,统计获取句式模板,具体包括:识别统计所述已标注语料数据中槽位标签及所述槽位标签所对应词语;将所述槽位标签转换为槽位,使所述已标注语料数据转换为句式模板;将所述槽位标签所对应词语保存为对应所述槽位的槽位值
。4.
根据权利要求3所述的文本分类训练语料自动平衡方法,其特征在于,所述基于所述已标注语料数据,统计获取句式模板,还包括:分别将所述槽位

所述槽位值和所述语料生成模板进行去重处理
。5.
根据权利要求3所述的文本分类训练语料自动平衡方法,其特征在于,还包括:获取补充的所述槽位标签所对应的词语,将其保存为所述槽位值
。6.
根据权利要求3所述的文本分类训练语料自动平衡方法,其特征在于,所述根据所述句式模板自动生成对应数量的训练语料,具体包括:获取所述句式模板和所述槽位值;替换所述句式模板中所...

【专利技术属性】
技术研发人员:刘卫强曾谁飞李敏张景瑞
申请(专利权)人:青岛海尔电冰箱有限公司海尔智家股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1