【技术实现步骤摘要】
文本分类训练语料自动生成方法、装置、设备和存储介质
[0001]本专利技术涉及数据处理
,具体地涉及一种文本分类训练语料自动生 成方法
、
装置
、
设备和存储介质
。
技术介绍
[0002]文本分类是一种常见的自然语言处理任务,要求能把输入的文本数据进行 正确的意图分类,意图分类即基于输入的语料数据判断识别用户的具体使用意 图,根据不同使用意图可将输入的语料数据整体划分为分属于几大领域的使用 意图,每个意图分类都有相应的训练语料用于训练意图分类模型
。
在文本分类 模型的训练过程中,理想状态下各分类的训练语料数量应该大致相等,如果在 数量上出现严重的不平衡,会造成数量少的分类的特征丢失在训练过程中,使 得但凡是和大数量分类中的语料有点儿相似的语料都会被分到大分类里,从而 出现许多错误
。
[0003]因此需要对数量较少的训练语料进行补充,这就需要大量的
、
经过标注的 训练数据,然而,在实际工作中,由于标注主要通过人工完成,很难快速形成 足量的训练数据,少量的数据不足以支撑模型训练的验证需求,因此在工作效 率和节奏一致性上存在问题
。
技术实现思路
[0004]本专利技术的目的在于提供一种文本分类训练语料自动生成方法
、
装置
、
设备 和存储介质
。
[0005]本专利技术提供一种文本分类训练语料自动生成方法,其特征在于,包括步骤:
[000 ...
【技术保护点】
【技术特征摘要】
1.
一种文本分类训练语料自动生成方法,其特征在于,包括步骤:获取已标注语料数据;获取已标注语料数据的槽位和槽位值,将所述已标注语料数据转换为句式模板;在所述句式模板中将不同槽位所对应的所述槽位值进行连续列表累加运算生成训练语料,对于相邻两个所述槽位内所述槽位值信息进行列表累加运算可表示为:
[x
1 x2…
x
m
]
×
+[y
1 y2…
y
n
]
=
[x1+y
1 x1+y2…
x1+y
n x2+y
1 x2+y2…
x2+y
n
…
x
m
+y
n
]
其中,
×
+
为自定义的列表累加运算符,
x1、x2…
x
m
和
y1、y2…
y
n
分别为两个所述槽位内对应的所述槽位值
。2.
根据权利要求1所述的文本分类训练语料自动生成方法,其特征在于,所述获取已标注语料数据,具体包括:获取不同意图分类的来自用户真实输入的已标注语料数据
。3.
根据权利要求2所述的文本分类训练语料自动生成方法,其特征在于,所述获取已标注语料数据的槽位和槽位值,将所述已标注语料数据转换为句式模板,具体包括:识别统计所述已标注语料数据中槽位标签及所述槽位标签所对应词语;将所述槽位标签转换为槽位,使所述已标注语料数据转换为句式模板;将所述槽位标签所对应词语保存为对应所述槽位的槽位值
。4.
根据权利要求3所述的文本分类训练语料自动生成方法,其特征在于,还包括:分别将所述槽位
、
所述槽位值和所述语料生成模板进行去重处理
。5.
根据权利要求3所述的文本分类训练语料自动生成方法,其特征在于,还包括:获取补充的所述槽位标签所对应的词语,将其保存为所述槽位值
。6.
根据权利要求3所述的文本分类训练语料自动生成方法,其特征在于,还包括:设置所述槽位值获取上限,当获取的所述槽位值数量达到所述槽位值获取上限时,停止获取槽位值
。7.
根据权利要求2所述的文本分类训练语料自动生成方法,其特征在于,还包括:基于不同意图分类的所述已标注语料数据的数...
【专利技术属性】
技术研发人员:刘卫强,孔令磊,曾谁飞,李敏,张景瑞,
申请(专利权)人:青岛海尔电冰箱有限公司海尔智家股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。