当前位置: 首页 > 专利查询>青岛海尔电冰箱有限公司海尔智家股份有限公司专利>正文

文本分类训练语料自动平衡方法技术

技术编号：39900074 阅读：8 留言：0更新日期：2023-12-30 13:14

本发明专利技术提供一种文本分类训练语料自动平衡方法

全部详细技术资料下载

【技术实现步骤摘要】
文本分类训练语料自动平衡方法、系统、设备和存储介质

[0001]本专利技术涉及数据处理
，具体地涉及一种文本分类训练语料自动平衡方法
、
装置
、
设备和存储介质
。

技术介绍

[0002]文本分类是一种常见的自然语言处理任务，要求能把输入的文本数据进行正确的意图分类，意图分类即基于输入的语料数据判断识别用户的具体使用意图，根据不同使用意图可将输入的语料数据整体划分为分属于几大领域的使用意图，每个意图分类都有相应的训练语料用于训练意图分类模型
。
在文本分类模型的训练过程中，理想状态下各分类的训练语料数量应该大致相等，如果在数量上出现严重的不平衡，会造成数量少的分类的特征丢失在训练过程中，使得但凡是和大数量分类中的语料有点儿相似的语料都会被分到大分类里，从而出现许多错误
。
[0003]然而，在实际的训练过程中，这种理想中的平衡很难自然实现，对于智能冰箱，语料可能包括食材相关内容
、
音乐相关内容
、
菜谱相关内容
、
当日热点新闻等内容，各种内容在使用过程中被提及的频率差别很大，训练语料的数量差距很大，难以有效对文本分类模型进行训练，从而会造成各个功能的体验参差不齐
。

技术实现思路

[0004]本专利技术的目的在于提供一种文本分类训练语料自动平衡方法
、
装置
、
设备和存储介质
。
[000...

【技术保护点】

【技术特征摘要】
1.
一种文本分类训练语料自动平衡方法，其特征在于，包括步骤：获取不同意图分类的已标注语料数据；基于所述已标注语料数据，统计获取句式模板；基于不同意图分类的所述已标注语料数据的数量，分别设置不同意图分类的生成系数；分别根据不同意图分类的所述生成系数，根据所述句式模板自动生成对应数量的训练语料，使不同意图分类的训练语料数量比例满足预设条件
。2.
根据权利要求1所述的文本分类训练语料自动平衡方法，其特征在于，所述获取不同意图分类的已标注语料数据，具体包括：获取不同意图分类的来自用户真实输入的已标注语料数据
。3.
根据权利要求1所述的文本分类训练语料自动平衡方法，其特征在于，所述基于所述已标注语料数据，统计获取句式模板，具体包括：识别统计所述已标注语料数据中槽位标签及所述槽位标签所对应词语；将所述槽位标签转换为槽位，使所述已标注语料数据转换为句式模板；将所述槽位标签所对应词语保存为对应所述槽位的槽位值
。4.
根据权利要求3所述的文本分类训练语料自动平衡方法，其特征在于，所述基于所述已标注语料数据，统计获取句式模板，还包括：分别将所述槽位
、
所述槽位值和所述语料生成模板进行去重处理
。5.
根据权利要求3所述的文本分类训练语料自动平衡方法，其特征在于，还包括：获取补充的所述槽位标签所对应的词语，将其保存为所述槽位值
。6.
根据权利要求3所述的文本分类训练语料自动平衡方法，其特征在于，所述根据所述句式模板自动生成对应数量的训练语料，具体包括：获取所述句式模板和所述槽位值；替换所述句式模板中所...

【专利技术属性】
技术研发人员：刘卫强，曾谁飞，李敏，张景瑞，
申请(专利权)人：青岛海尔电冰箱有限公司海尔智家股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人