数据分类方法及装置制造方法及图纸

技术编号:33732859 阅读:40 留言:0更新日期:2022-06-08 21:28
本公开涉及数据处理技术领域,提供了数据分类方法及装置。该方法包括:获取基础训练数据集,并标注基础训练数据集中每一个样本对应的标签和规则,得到第一训练数据集;基于第一训练数据集中每一个样本和每一个样本对应的标签,构建第二训练数据集,基于第一训练数据集中每一个样本对应的规则和每一个样本对应的标签,构建第三训练数据集;利用第二训练数据集训练标签分类模型,利用第三训练数据集训练规则分类模型;按照预设规则,融合训练后的标签分类模型和规则分类模型,得到融合模型;利用融合模型,进行数据分类。采用上述技术手段,解决现有技术中,对数据进行分类效率低和准确度低的问题。准确度低的问题。准确度低的问题。

【技术实现步骤摘要】
数据分类方法及装置


[0001]本公开涉及数据处理
,尤其涉及一种数据分类方法及装置。

技术介绍

[0002]目前在对数据进行分类时,往往采用是通过人工的方式或者使用训练好的模型对数据进行分类。通过人工的方式对数据进行分类,需要整理专家的规则知识,对知识准确性要求高,获取成本高,数据分类的效率低,通过使用训练好的模型对数据进行分类,标注数据较少的情况下,则数据分类的准确度低。
[0003]在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下技术问题:对数据进行分类效率低和准确度低的问题。

技术实现思路

[0004]有鉴于此,本公开实施例提供了一种数据分类方法、装置、电子设备和计算机可读的存储介质,以解决现有技术中,对数据进行分类效率低和准确度低的问题。
[0005]本公开实施例的第一方面,提供了一种数据分类方法,包括:获取基础训练数据集,并标注基础训练数据集中每一个样本对应的标签和规则,得到第一训练数据集;基于第一训练数据集中每一个样本和每一个样本对应的标签,构建第二训练数据集,基于第一训练数据集本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据分类方法,其特征在于,包括:获取基础训练数据集,并标注所述基础训练数据集中每一个样本对应的标签和规则,得到第一训练数据集;基于所述第一训练数据集中每一个样本和每一个样本对应的标签,构建第二训练数据集,基于所述第一训练数据集中每一个样本对应的规则和每一个样本对应的标签,构建第三训练数据集;利用所述第二训练数据集训练标签分类模型,利用所述第三训练数据集训练规则分类模型;按照预设规则,融合训练后的所述标签分类模型和所述规则分类模型,得到融合模型;利用所述融合模型,进行数据分类。2.根据权利要求1所述的方法,其特征在于,所述利用所述第二训练数据集训练标签分类模型,包括:提取所述第二训练数据集中每一个样本的词向量特征;利用所述第二训练数据集中每一个样本的词向量特征替换所述第二训练数据集中每一个词向量特征对应的样本,以更新所述第二训练数据集;利用更新后的所述第二训练数据集训练所述标签分类模型。3.根据权利要求1所述的方法,其特征在于,所述利用所述第二训练数据集训练标签分类模型,包括:提取所述第二训练数据集中每一个样本的多个特征;按照预设编码方法对所述第二训练数据集中每一个样本的多个特征进行编码,得到所述第二训练数据集中每一个样本对应的编码结果;利用所述第二训练数据集中每一个样本对应的编码结果替换所述第二训练数据集中每一个编码结果对应的样本,以更新所述第二训练数据集;利用更新后的所述第二训练数据集训练所述标签分类模型。4.根据权利要求1所述的方法,其特征在于,所述利用所述第三训练数据集训练规则分类模型,包括:计算所述第三训练数据集中每条规则对应的向量表示;利用所述第三训练数据集中每条规则对应的向量表示替换所述第三训练数据集中每条向量表示对应的规则,以更新所述第三训练数据集;利用更新后的所述第三训练数据集训练所述规则分类模型。5.根据权利要求1所述的方法,其特征在于,所述利用所述第三训练数据集训练规则分类模型,包括:利用所述第三训练数据集中的多条规则,组成规则集合;获取大规模未标注数据集,基于所述规则集合,自动匹配标注大规模未标注数据集中每一个样本对应的规则,得到辅助数据集;计算所述辅助数据集中每条规则对应的向量表示;将所述辅助数据...

【专利技术属性】
技术研发人员:张献涛曾祥永支涛
申请(专利权)人:河南云迹智能技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1