一种文本数据清洗方法技术

技术编号:39840042 阅读:5 留言:0更新日期:2023-12-29 16:26
本申请公开了一种文本数据清洗方法

【技术实现步骤摘要】
一种文本数据清洗方法、装置、存储介质及设备


[0001]本申请涉及自然语言处理
,尤其涉及一种文本数据清洗方法

装置

存储介质及设备


技术介绍

[0002]随着人工智能技术的不断突破和各种智能终端设备的日益普及,人机交互在人们日常工作

生活中出现的频率越来越高,能够为人们带来极大的便利,而人机交互中,较为难处理且会对语义理解产生较大负面影响的多为数据的不一致性,由此需要进行关于文本数据的有效清洗,以提高文本数据的一致性

[0003]目前,对于人机交互中文本数据清洗的方法通常有两种:一种是基于关键词进行清洗,但这种清洗方式需要针对每个语种的每个分类类别均需重新梳理数据

总结关键词,时间和人力成本较高,且某些语种由于无法全方面罗列关键词,会导致数据清洗不够充分,此外,还会存在矫枉过正的情况,造成文本数据资源的浪费

而另一种常用的文本数据清洗方法则是利用模型阈值进行清洗,虽然时间和人力成本相对较低,但是需要人工确定模型阈值,针对不同同语种的不同分类类别,模型阈值可能存在不同的情况,反而可能会造成时间和人力成本成倍增加,清洗效率仍然较低

此外,该清洗方式需要额外训练引入清洗模型,且该清洗模型的训练需要引入存在文本类别混淆数据,可能会对结果产生负面影响,导致清洗效果较差


技术实现思路

[0004]本申请实施例的主要目的在于提供一种文本数据清洗方

装置

存储介质及设备,能够实现文本数据的准确

快速清洗,进而提高文本数据清洗的效果

[0005]本申请实施例提供了一种文本数据清洗方法,包括:
[0006]获取待清洗的目标文本数据;所述目标文本数据中混淆了部分干净类别的文本数据;
[0007]在利用干净类别的文本训练数据训练完文本分类模型后,将所述目标文本数据和所述干净类别的文本训练数据输入所述文本分类模型进行第一次数据清洗,得到第一次清洗结果;所述第一次清洗结果包括从所述目标文本数据中清洗出的属于干净类别的文本数据和清洗后剩余的目标文本数据;
[0008]判断所述第一次清洗结果是否满足停止清洗数据的预设条件;若是,则将第一次清洗结果作为所述目标文本数据对应的最终清洗结果;若否,则利用所述干净类别的文本训练数据和所述清洗后剩余的目标文本数据,对所述文本分类模型进行第二次训练,得到更新后的文本分类模型,并利用更新后的文本分类模型和所述干净类别的文本训练数据对所述目标文本数据进行第二次数据清洗,得到第二次清洗结果;依次类推,直至得到的第
M
次清洗结果满足停止清洗数据的预设条件,则将所述第
M
次清洗结果作为目标文本数据对应的最终清洗结果,所述
M
为大于0的正整数

[0009]一种可能的实现方式中,所述方法还包括:
[0010]获取
N
个干净类别的文本训练数据;所述
N
为大于0的正整数;所述目标文本数据中混淆的干净类别的文本训练数据所属的分类不大于
N

[0011]利用所述
N
个干净类别的文本训练数据和交叉熵损失函数,对初始文本分类模型进行训练,得到所述文本分类模型

[0012]一种可能的实现方式中,所述方法还包括:
[0013]获取属于
N
个干净类别的文本验证数据;
[0014]将所述文本验证数据输入所述文本分类模型,获得所述文本验证数据对应的干净类别预测结果;
[0015]当所述文本验证数据对应的干净类别预测结果满足预设验证条件时,停止对所述文本分类模型进行更新,得到验证后的所述文本分类模型

[0016]一种可能的实现方式中,所述将所述目标文本数据和所述干净类别的文本训练数据输入所述文本分类模型进行第一次数据清洗,得到第一次清洗结果,包括:
[0017]将所述干净类别的文本训练数据输入所述文本分类模型,得到所述干净类别的文本训练数据的第一统计量,并计算所述第一统计量的控制限数值;
[0018]将所述目标文本数据输入所述文本分类模型,得到所述目标文本数据中每一条文本数据在所述干净类别下的第二统计量;
[0019]将所述第二统计量与所述控制限数值进行比对,并根据比对结果,判断所述第二统计量对应的所述目标文本数据中的一条文本数据是否属于干净类别,若是,则将其从所述目标文本数据中清洗出来,得到第一次清洗结果

[0020]一种可能的实现方式中,所述将所述第二统计量与所述控制限数值进行比对,并根据比对结果,判断所述第二统计量对应的所述目标文本数据中的一条文本数据的是否属于干净类别,若是,则将其从所述目标文本数据中清洗出来,得到第一次清洗结果,包括:
[0021]判断所述第二统计量的绝对值是否小于所述控制限数值的绝对值,若是,则表示所述第二统计量对应的所述目标文本数据中的一条文本数据属于干净类别,在将其从所述目标文本数据中清洗出来后,得到第一次清洗结果

[0022]一种可能的实现方式中,所述将所述第二统计量与所述控制限数值进行比对,并根据比对结果,判断所述第二统计量对应的所述目标文本数据中的一条文本数据的是否属于干净类别,若是,则将其从所述目标文本数据中清洗出来,得到第一次清洗结果,包括:
[0023]计算所述目标文本数据中每一条文本数据对应的第二统计量与所述控制限数值的差值的绝对值,并确定出小于预设绝对值阈值的绝对值对应的目标第二统计量;
[0024]确定所述目标第二统计量对应的所述目标文本数据中的文本数据属于干净类别,并将其从所述目标文本数据中清洗出来后,得到第一次清洗结果

[0025]一种可能的实现方式中,所述停止清洗数据的预设条件为连续进行两次数据清洗后,从所述目标文本数据中清洗出的属于干净类别的文本数据的总量波动小于预设条数;或者所述停止清洗数据的预设条件为所述目标文本数据经过清洗后剩下的文本数据量在所述目标文本数据原始文本数据总量中的占比不低于预设占比

[0026]本申请实施例还提供了一种文本数据清洗装置,包括:
[0027]第一获取单元,用于获取待清洗的目标文本数据;所述目标文本数据中混淆了部
分干净类别的文本数据;
[0028]第一清洗单元,用于在利用干净类别的文本训练数据训练完文本分类模型后,将所述目标文本数据和所述干净类别的文本训练数据输入所述文本分类模型进行第一次数据清洗,得到第一次清洗结果;所述第一次清洗结果包括从所述目标文本数据中清洗出的属于干净类别的文本数据和清洗后剩余的目标文本数据;
[0029]第二清洗单元,用于判断所述第一次清洗结果是否满足停止清洗数据的预设条件;若本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本数据清洗方法,其特征在于,包括:获取待清洗的目标文本数据;所述目标文本数据中混淆了部分干净类别的文本数据;在利用干净类别的文本训练数据训练完文本分类模型后,将所述目标文本数据和所述干净类别的文本训练数据输入所述文本分类模型进行第一次数据清洗,得到第一次清洗结果;所述第一次清洗结果包括从所述目标文本数据中清洗出的属于干净类别的文本数据和清洗后剩余的目标文本数据;判断所述第一次清洗结果是否满足停止清洗数据的预设条件;若是,则将第一次清洗结果作为所述目标文本数据对应的最终清洗结果;若否,则利用所述干净类别的文本训练数据和所述清洗后剩余的目标文本数据,对所述文本分类模型进行第二次训练,得到更新后的文本分类模型,并利用更新后的文本分类模型和所述干净类别的文本训练数据对所述目标文本数据进行第二次数据清洗,得到第二次清洗结果;依次类推,直至得到的第
M
次清洗结果满足停止清洗数据的预设条件,则将所述第
M
次清洗结果作为目标文本数据对应的最终清洗结果,所述
M
为大于0的正整数
。2.
根据权利要求1所述的方法,其特征在于,所述方法还包括:获取
N
个干净类别的文本训练数据;所述
N
为大于0的正整数;所述目标文本数据中混淆的干净类别的文本训练数据所属的分类不大于
N
;利用所述
N
个干净类别的文本训练数据和交叉熵损失函数,对初始文本分类模型进行训练,得到所述文本分类模型
。3.
根据权利要求2所述的方法,其特征在于,所述方法还包括:获取属于
N
个干净类别的文本验证数据;将所述文本验证数据输入所述文本分类模型,获得所述文本验证数据对应的干净类别预测结果;当所述文本验证数据对应的干净类别预测结果满足预设验证条件时,停止对所述文本分类模型进行更新,得到验证后的所述文本分类模型
。4.
根据权利要求1所述的方法,其特征在于,所述将所述目标文本数据和所述干净类别的文本训练数据输入所述文本分类模型进行第一次数据清洗,得到第一次清洗结果,包括:将所述干净类别的文本训练数据输入所述文本分类模型,得到所述干净类别的文本训练数据的第一统计量,并计算所述第一统计量的控制限数值;将所述目标文本数据输入所述文本分类模型,得到所述目标文本数据中每一条文本数据在所述干净类别下的第二统计量;将所述第二统计量与所述控制限数值进行比对,并根据比对结果,判断所述第二统计量对应的所述目标文本数据中的一条文本数据是否属于干净类别,若是,则将其从所述目标文本数据中清洗出来,得到第一次清洗结果
。5.
根据权利要求4所述的方法,其特征在于,所述将所述第二统计量与所述控制限数值进行比对,并根据比对结果,判断所述第二统计量对应的所述目标文本数据中的一条文本数据的是否属于干净类别,若是,则将其从所述目标文本数据中清洗出来,得到第一次清洗结果,包括:判断所述第二统计量的绝...

【专利技术属性】
技术研发人员:孙骏孙庆华张志庆程庆
申请(专利权)人:吉林科讯信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1