文本分类训练语料自动生成方法技术

技术编号:39877891 阅读:25 留言:0更新日期:2023-12-30 13:00
本发明专利技术提供一种文本分类训练语料自动生成方法

【技术实现步骤摘要】
文本分类训练语料自动生成方法、装置、设备和存储介质


[0001]本专利技术涉及数据处理
,具体地涉及一种文本分类训练语料自动生 成方法

装置

设备和存储介质


技术介绍

[0002]文本分类是一种常见的自然语言处理任务,要求能把输入的文本数据进行 正确的意图分类,意图分类即基于输入的语料数据判断识别用户的具体使用意 图,根据不同使用意图可将输入的语料数据整体划分为分属于几大领域的使用 意图,每个意图分类都有相应的训练语料用于训练意图分类模型

在文本分类 模型的训练过程中,理想状态下各分类的训练语料数量应该大致相等,如果在 数量上出现严重的不平衡,会造成数量少的分类的特征丢失在训练过程中,使 得但凡是和大数量分类中的语料有点儿相似的语料都会被分到大分类里,从而 出现许多错误

[0003]因此需要对数量较少的训练语料进行补充,这就需要大量的

经过标注的 训练数据,然而,在实际工作中,由于标注主要通过人工完成,很难快速形成 足量的训练数据,少量的数据不足以支撑模型训练的验证需求,因此在工作效 率和节奏一致性上存在问题


技术实现思路

[0004]本专利技术的目的在于提供一种文本分类训练语料自动生成方法

装置

设备 和存储介质

[0005]本专利技术提供一种文本分类训练语料自动生成方法,其特征在于,包括步骤:
[0006]获取已标注语料数据;
[0007]获取已标注语料数据的槽位和槽位值,将所述已标注语料数据转换为句式 模板;
[0008]在所述句式模板中将不同槽位所对应的所述槽位值进行连续列表累加运算 生成训练语料,对于相邻两个所述槽位内所述槽位值信息进行列表累加运算可 表示为:
[0009][x
1 x2ꢀ…ꢀ
x
m

+[y
1 y2ꢀ…ꢀ
y
n
]=
[x1+y
1 x1+y2ꢀ…ꢀ
x1+y
n x2+y
1 x2+y2ꢀ…ꢀ
x2+y
n
ꢀ…ꢀ
x
m
+y
n
][0010]其中,
×
+
为自定义的列表累加运算符,
x1、x2…
x
m

y1、y2…
y
n
分别为两 个所述槽位内对应的所述槽位值

[0011]作为本专利技术的进一步改进,所述获取已标注语料数据,具体包括:
[0012]获取不同意图分类的来自用户真实输入的已标注语料数据

[0013]作为本专利技术的进一步改进,所述获取已标注语料数据的槽位和槽位值,将 所述已标注语料数据转换为句式模板,具体包括:
[0014]识别统计所述已标注语料数据中槽位标签及所述槽位标签所对应词语;
[0015]将所述槽位标签转换为槽位,使所述已标注语料数据转换为句式模板;
[0016]将所述槽位标签所对应词语保存为对应所述槽位的槽位值

[0017]作为本专利技术的进一步改进,还包括:
[0018]分别将所述槽位

所述槽位值和所述语料生成模板进行去重处理

[0019]作为本专利技术的进一步改进,还包括:
[0020]获取补充的所述槽位标签所对应的词语,将其保存为所述槽位值

[0021]作为本专利技术的进一步改进,还包括:
[0022]设置所述槽位值获取上限,当获取的所述槽位值数量达到所述槽位值获取 上限时,停止获取槽位值

[0023]作为本专利技术的进一步改进,还包括:
[0024]基于不同意图分类的所述已标注语料数据的数量,分别设置不同意图分类 的生成系数;
[0025]分别根据不同意图分类的所述生成系数,根据所述句式模板通过所述列表 累加算法自动生成对应数量的训练语料,使不同意图分类的训练语料数量比例 满足预设条件

[0026]作为本专利技术的进一步改进,还包括:
[0027]统计不同意图分类训练集中自动生成的所述训练语料数量分布;
[0028]基于不同意图分类的所述训练语料数量分布设置平衡目标数量;
[0029]当存在一意图分类训练集中训练语料数量少于所述平衡目标数量时,追加 生成所述训练语料直至满足所述平衡目标数量

[0030]基于同一专利技术构思,本专利技术还提供一种文本分类训练语料自动生成装置, 包括:
[0031]数据获取模块,其被配置用于获取已标注语料数据;
[0032]句式模板生成模块,其被配置用于获取已标注语料数据的槽位和槽位值, 将所述已标注语料数据转换为句式模板;
[0033]训练语料生成模块,其被配置用于在所述句式模板中将不同槽位所对应的 所述槽位值进行连续列表累加运算生成训练语料,对于相邻两个所述槽位内所 述槽位值信息进行列表累加运算可表示为:
[0034][x
1 x2ꢀ…ꢀ
x
m

+[y
1 y2ꢀ…ꢀ
y
n
]=
[x1+y
1 x1+y2ꢀ…ꢀ
x1+y
n x2+y
1 x2+y2ꢀ…ꢀ
x2+y
n
ꢀ…ꢀ
x
m
+y
n
][0035]其中,
×
+
为自定义的列表累加运算符,
x1、x2…
x
m

y1、y2…
y
n
分别为两个 所述槽位内对应的所述槽位值

[0036]基于同一专利技术构思,本专利技术还提供一种电器设备,包括:
[0037]存储器,用于存储可执行指令;
[0038]处理器,用于运行所述存储器存储的可执行指令时,实现上述的文本分类 训练语料自动生成方法

[0039]基于同一专利技术构思,本专利技术还提供一种冰箱,包括:
[0040]存储器,用于存储可执行指令;
[0041]处理器,用于运行所述存储器存储的可执行指令时,实现上述的文本分类 训练语料自动生成方法

[0042]基于同一专利技术构思,本专利技术还提供一种计算机可读存储介质,其存储有可 执行指令,所述可执行指令被处理器执行时实现上述的文本分类训练语料自动 生成方法

[0043]本专利技术的有益效果是:在已标注语料数据中统计获取槽位和槽位值生成句 式模板,并通过根据克罗内克积演变的列表累加算法基于句式模板生成训练语 料,自动生成训
…ꢀ
x
m
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本分类训练语料自动生成方法,其特征在于,包括步骤:获取已标注语料数据;获取已标注语料数据的槽位和槽位值,将所述已标注语料数据转换为句式模板;在所述句式模板中将不同槽位所对应的所述槽位值进行连续列表累加运算生成训练语料,对于相邻两个所述槽位内所述槽位值信息进行列表累加运算可表示为:
[x
1 x2…
x
m
]
×
+[y
1 y2…
y
n
]

[x1+y
1 x1+y2…
x1+y
n x2+y
1 x2+y2…
x2+y
n

x
m
+y
n
]
其中,
×
+
为自定义的列表累加运算符,
x1、x2…
x
m

y1、y2…
y
n
分别为两个所述槽位内对应的所述槽位值
。2.
根据权利要求1所述的文本分类训练语料自动生成方法,其特征在于,所述获取已标注语料数据,具体包括:获取不同意图分类的来自用户真实输入的已标注语料数据
。3.
根据权利要求2所述的文本分类训练语料自动生成方法,其特征在于,所述获取已标注语料数据的槽位和槽位值,将所述已标注语料数据转换为句式模板,具体包括:识别统计所述已标注语料数据中槽位标签及所述槽位标签所对应词语;将所述槽位标签转换为槽位,使所述已标注语料数据转换为句式模板;将所述槽位标签所对应词语保存为对应所述槽位的槽位值
。4.
根据权利要求3所述的文本分类训练语料自动生成方法,其特征在于,还包括:分别将所述槽位

所述槽位值和所述语料生成模板进行去重处理
。5.
根据权利要求3所述的文本分类训练语料自动生成方法,其特征在于,还包括:获取补充的所述槽位标签所对应的词语,将其保存为所述槽位值
。6.
根据权利要求3所述的文本分类训练语料自动生成方法,其特征在于,还包括:设置所述槽位值获取上限,当获取的所述槽位值数量达到所述槽位值获取上限时,停止获取槽位值
。7.
根据权利要求2所述的文本分类训练语料自动生成方法,其特征在于,还包括:基于不同意图分类的所述已标注语料数据的数...

【专利技术属性】
技术研发人员:刘卫强孔令磊曾谁飞李敏张景瑞
申请(专利权)人:青岛海尔电冰箱有限公司海尔智家股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1