本申请关于一种基于自学习的标签规则产生方法及装置。具体方案为:通过响应于接收到目标数据,对目标数据进行特征提取,以得到特征数据;确定特征数据的所属类型;将特征数据和特征数据的所属类型输入至预训练的预测器中;获取预测器输出的标签规则;基于标签规则对特征数据进行打标签。本申请提升了数据标签化的工作效率和精准度。化的工作效率和精准度。化的工作效率和精准度。
【技术实现步骤摘要】
一种基于自学习的标签规则产生方法及装置
[0001]本申请涉及计算机
,尤其涉及一种基于自学习的标签规则产生方法及装置。
技术介绍
[0002]相关技术中,标签作为一种灵活的数据组织方式,是具有业务属性的,通过特征集合并关联打标签的对象,对分析对象生成画像,挖掘对象的价值。打标签的过程,也就是生产标签的过程,包括:明确打标签的对象;明确标签的用途;明确标签规则;明确标签的名称。这个过程中最复杂的也是难度比较高就是明确标签规则的过程,目前标签的规则都是基于人工根据经验总结进行规则的整理。有些标签的逻辑是不断的发生改变的,对于已经整理好的规则,难以及时的根据标签逻辑的改变及时进行调整。
技术实现思路
[0003]为此,本申请提供一种基于自学习的标签规则产生方法及装置。本申请的技术方案如下:
[0004]根据本申请实施例的第一方面,提供一种基于自学习的标签规则产生方法,所述方法包括:
[0005]响应于接收到目标数据,对所述目标数据进行特征提取,以得到特征数据;
[0006]确定所述特征数据的所属类型;
[0007]将所述特征数据和所述特征数据的所属类型输入至预训练的预测器中;
[0008]获取所述预测器输出的标签规则;所述预测器是基于标签规则索引数据进行训练得到的;所述标签规则索引数据用于存储特征数据、数据类型与标签规则之间的对应关系;
[0009]基于所述标签规则对所述特征数据进行打标签。
[0010]根据本申请的一个实施例,所述预测器通过以下步骤进行训练:
[0011]采用小样本学习算法,基于所述标签规则索引数据对待训练的神经网络模型进行训练;
[0012]将训练好的所述神经网络模型确定为所述预测器。
[0013]根据本申请的一个实施例,所述预测器还通过以下步骤进行训练:
[0014]获取标签规则样本数据;其中,所述标签规则样本数据包括目标样本数据和所述目标样本数据对应的第一标签值;
[0015]对所述目标样本数据进行特征提取,以得到特征样本数据;
[0016]确定所述特征样本数据的所属类型;
[0017]将所述特征样本数据和所述特征样本数据的所属类型输入至所述预测器;
[0018]获取所述预测器基于所述特征样本数据和所述特征样本数据的所属类型预测出的标签规则;
[0019]根据所述预测出的标签规则,确定第二标签值;
[0020]将所述第一标签值与所述第二标签值进行比对,得到比对结果;
[0021]响应于所述比对结果为所述第一标签值区别于所述第二标签值,对所述预测器进行调参,重复执行所述将所述特征样本数据和所述特征样本数据的所属类型输入至所述预测器的步骤。
[0022]根据本申请的一个实施例,所述标签规则样本数据有多个;在所述获取标签规则样本数据之后,还包括:
[0023]对所述多个标签规则样本数据进行语义相似性计算,得到计算结果;
[0024]基于所述计算结果,对所述多个标签规则样本数据进行聚类处理,以得聚类后的标签规则数据。
[0025]根据本申请的一个实施例,在所述将所述第一标签值与所述第二标签值进行比对,得到比对结果之后,还包括:
[0026]响应于所述比对结果为所述第一标签值与所述第二标签值相同,确定所述标签规则索引数据中是否存储有所述预测出的标签规则;
[0027]响应于所述标签规则索引数据中未存储有所述预测出的标签规则,将所述预测出的标签规则存入所述标签规则索引数据中。
[0028]根据本申请实施例的第二方面,提供一种基于自学习的标签规则产生装置,所述装置包括:
[0029]特征提取模块,用于响应于接收到目标数据,对所述目标数据进行特征提取,以得到特征数据;
[0030]确定模块,用于确定所述特征数据的所属类型;
[0031]输入模块,用于将所述特征数据和所述特征数据的所属类型输入至预训练的预测器中;
[0032]获取模块,用于获取所述预测器输出的标签规则;所述预测器是基于标签规则索引数据进行训练得到的;所述标签规则索引数据用于存储特征数据、数据类型与标签规则之间的对应关系;
[0033]打标签模块,用于基于所述标签规则对所述特征数据进行打标签。
[0034]根据本申请的一个实施例,还包括训练模块,所述训练模块用于:
[0035]采用小样本学习算法,基于所述标签规则索引数据对待训练的神经网络模型进行训练;
[0036]将训练好的所述神经网络模型确定为所述预测器。
[0037]根据本申请的一个实施例,所述训练模块还用于:
[0038]获取标签规则样本数据;其中,所述标签规则样本数据包括目标样本数据和所述目标样本数据对应的第一标签值;
[0039]对所述目标样本数据进行特征提取,以得到特征样本数据;
[0040]确定所述特征样本数据的所属类型;
[0041]将所述特征样本数据和所述特征样本数据的所属类型输入至所述预测器;
[0042]获取所述预测器基于所述特征样本数据和所述特征样本数据的所属类型预测出的标签规则;
[0043]根据所述预测出的标签规则,确定第二标签值;
[0044]将所述第一标签值与所述第二标签值进行比对,得到比对结果;
[0045]响应于所述比对结果为所述第一标签值区别于所述第二标签值,对所述预测器进行调参,重复执行所述将所述特征样本数据和所述特征样本数据的所属类型输入至所述预测器的步骤。
[0046]根据本申请的一个实施例,所述标签规则样本数据有多个;所述训练模块还用于:
[0047]对所述多个标签规则样本数据进行语义相似性计算,得到计算结果;
[0048]基于所述计算结果,对所述多个标签规则样本数据进行聚类处理,以得聚类后的标签规则数据。
[0049]根据本申请的一个实施例,所述训练模块还用于:
[0050]响应于所述比对结果为所述第一标签值与所述第二标签值相同,确定所述标签规则索引数据中是否存储有所述预测出的标签规则;
[0051]响应于所述标签规则索引数据中未存储有所述预测出的标签规则,将所述预测出的标签规则存入所述标签规则索引数据中。
[0052]本申请的实施例提供的技术方案至少带来以下有益效果:
[0053]通过响应于接收到目标数据,对目标数据进行特征提取,以得到特征数据;确定特征数据的所属类型;将特征数据和特征数据的所属类型输入至预训练的预测器中;获取预测器输出的标签规则;基于标签规则对特征数据进行打标签。从而使标签规则的产生不再强依赖于人工,自动生成相应的标签规则,基于自学习技术的标签规则产生引擎,自动匹配字段的标签打标规则,快速完成标签的打标工作,提高标签规则的准确度和专业性,提升数据标签化的工作效率和精准度
[0054]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于自学习的标签规则产生方法,其特征在于,所述方法包括:响应于接收到目标数据,对所述目标数据进行特征提取,以得到特征数据;确定所述特征数据的所属类型;将所述特征数据和所述特征数据的所属类型输入至预训练的预测器中;获取所述预测器输出的标签规则;所述预测器是基于标签规则索引数据进行训练得到的;所述标签规则索引数据用于存储特征数据、数据类型与标签规则之间的对应关系;基于所述标签规则对所述特征数据进行打标签。2.根据权利要求1所述的方法,其特征在于,所述预测器通过以下步骤进行训练:采用小样本学习算法,基于所述标签规则索引数据对待训练的神经网络模型进行训练;将训练好的所述神经网络模型确定为所述预测器。3.根据权利要求2所述的方法,其特征在于,所述预测器还通过以下步骤进行训练:获取标签规则样本数据;其中,所述标签规则样本数据包括目标样本数据和所述目标样本数据对应的第一标签值;对所述目标样本数据进行特征提取,以得到特征样本数据;确定所述特征样本数据的所属类型;将所述特征样本数据和所述特征样本数据的所属类型输入至所述预测器;获取所述预测器基于所述特征样本数据和所述特征样本数据的所属类型预测出的标签规则;根据所述预测出的标签规则,确定第二标签值;将所述第一标签值与所述第二标签值进行比对,得到比对结果;响应于所述比对结果为所述第一标签值区别于所述第二标签值,对所述预测器进行调参,重复执行所述将所述特征样本数据和所述特征样本数据的所属类型输入至所述预测器的步骤。4.根据权利要求3所述的方法,其特征在于,所述标签规则样本数据有多个;在所述获取标签规则样本数据之后,还包括:对所述多个标签规则样本数据进行语义相似性计算,得到计算结果;基于所述计算结果,对所述多个标签规则样本数据进行聚类处理,以得聚类后的标签规则数据。5.根据权利要求3所述的方法,其特征在于,在所述将所述第一标签值与所述第二标签值进行比对,得到比对结果之后,还包括:响应于所述比对结果为所述第一标签值与所述第二标签值相同,确定所述标签规则索引数据中是否存储有所述预测出的标签规则;响应于所述标签规则索引数据中未存储有所述预测出的标签规则,将所述预测出的标签规则存入所述标签规则索引数据中。6.一种基...
【专利技术属性】
技术研发人员:张晰,高嵩,章敏,李宝东,刘韶辉,穆显显,金一明,蔡姗姗,赵敏,
申请(专利权)人:太极计算机股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。