模型训练方法、数据标签的生成方法及装置制造方法及图纸

技术编号:28941753 阅读:11 留言:0更新日期:2021-06-18 21:47
本申请提供一种模型训练方法、数据标签的生成方法及装置,模型训练方法包括:从样本数据中获取第一属性信息,第一属性信息至少包括:样本数据的数据源、数据格式;样本数据设有业务标签;从样本数据中获取第二属性信息,第二属性信息至少包括:样本数据的表描述信息、表名;从预设的标签集合中确定与样本数据相匹配的目标标签;将第一属性信息、第二属性信息、目标标签、业务标签作为训练样本存储至训练样本集,以利用训练样本集训练出数据标签生成模型,数据标签生成模型用于为待处理数据生成对应的业务标签。应用该方法,可实现利用已训练的数据标签生成模型自动生成未知标签数据的数据标签,从而提高对数据进行标签管理的效率,节省人力物力。

【技术实现步骤摘要】
模型训练方法、数据标签的生成方法及装置
本申请涉及数据处理
,尤其涉及一种模型训练方法、数据标签的生成方法及装置。
技术介绍
随着互联网大数据的发展,标签管理已成为大数据时代的重要组成部分,其通过为数据定义具有关键字特性的数据标签,可以便于后续的数据索引与数据查找。然而,随着海量数据的诞生,很多数据由于历史原因或者其他种种原因,导致数据分布零碎、散乱,从而形成了多个数据孤岛。现有技术中,为了解决数据孤岛,可以通过人工进行数据梳理,对数据进行分门别类并定义数据标签。该种方式无疑将耗费大量的人力物力,同时,受人为经验的影响,通过该种方式为数据定义的数据标签的准确性也有待商榷。
技术实现思路
有鉴于此,本申请提供一种模型训练方法、数据标签的生成方法及装置,以解决现有技术中通过人工对数据定义数据标签,将耗费大量的人力物力,同时无法保证数据标签准确性的问题。根据本申请实施例的第一方面,提供一种模型训练方法,所述方法包括:从样本数据中获取第一属性信息,所述第一属性信息至少包括:所述样本数据的数据源、数据格式;所述样本数据设有业务标签;从所述样本数据中获取第二属性信息,所述第二属性信息至少包括:所述样本数据的表描述信息、表名;从预设的标签集合中确定与所述样本数据相匹配的目标标签;将所述第一属性信息、第二属性信息、所述目标标签、所述业务标签作为训练样本存储至训练样本集,以利用所述训练样本集训练出数据标签生成模型,所述数据标签生成模型用于为待处理数据生成对应的业务标签。根据本申请实施例的第二方面,提供一种数据标签的生成方法,所述方法包括:将待处理数据分别输入至按照如权利要求1至3任一方法训练出的N个数据标签生成模型,得到N个标签预测参数,所述标签预测参数至少包括预测标签,所述N为大于0的自然数;依据所述N个标签预测参数确定所述待处理数据的数据标签。根据本申请实施例的第三方面,提供一种模型训练装置,所述装置包括:第一获取模块,用于从样本数据中获取第一属性信息,所述第一属性信息至少包括:所述样本数据的数据源、数据格式;所述样本数据设有业务标签;第二获取模块,用于从所述样本数据中获取第二属性信息,所述第二属性信息至少包括:所述样本数据的表描述信息、表名;第一确定模块,用于从预设的标签集合中确定与所述样本数据相匹配的目标标签;模型训练模块,用于将所述第一属性信息、第二属性信息、所述目标标签、所述业务标签作为训练样本存储至训练样本集,以利用所述训练样本集训练出数据标签生成模型,所述数据标签生成模型用于为待处理数据生成对应的业务标签。根据本申请实施例的第四方面,提供一种数据标签的生成装置,所述装置包括:预测模块,用于将待处理数据分别输入至按照如权利要求1至3任一方法训练出的N个数据标签生成模型,得到N个标签预测参数,所述标签预测参数至少包括预测标签,所述N为大于0的自然数;第二确定模块,用于依据所述N个标签预测参数确定所述待处理数据的数据标签。根据本申请实施例的第五方面,提供一种电子设备,所述设备包括可读存储介质和处理器;其中,所述可读存储介质,用于存储机器可执行指令;所述处理器,用于读取所述可读存储介质上的所述机器可执行指令,并执行所述指令以实现本申请实施例提供的模型训练方法或数据标签的生成方法的步骤。根据本申请实施例的第六方面,提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例提供的模型训练方法或数据标签的生成方法的步骤。应用本申请实施例,通过从样本数据中获取第一属性信息、第二属性信息,从预设的标签集合中确定与样本数据相匹配的目标标签,将第一属性信息、第二属性信息、目标标签、业务标签作为训练样本存储至训练样本集,以利用训练样本集训练出数据标签生成模型,可以实现利用已训练的数据标签生成模型自动生成未知标签数据的数据标签,从而提高对数据进行标签管理的效率,节省人力物力。附图说明图1为本申请一示例性实施例提供的一种模型训练方法的实施例流程图;图2为本申请一示例性实施例提供的步骤103的实现流程;图3为本申请一示例性实施例提供的一种数据标签的生成方法的实施例流程图;图4为本申请一示例性实施例提供的一种模型训练装置的实施例框图;图5为本申请一示例性实施例提供的一种数据标签的生成装置的实施例框图;图6为本申请根据一示例性实施例示出的一种电子设备的硬件结构图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。为解决上述问题,本申请提出一种模型训练方法,以及数据标签的生成方法。为了便于理解,下面首先对本申请提出的模型训练方法进行说明:请参见图1,为本申请一示例性实施例提供的一种模型训练方法的实施例流程图。如图1所示,该方法包括以下步骤:步骤101:从样本数据中获取第一属性信息。在一些实施例中,可以从以下渠道获取样本数据:1、应用系统,例如公安系统、航空系统、金融系统等。2、企业内部数据源,例如传统的经分数据、渠道管理数据、财务数据、客服数据、社交媒体数据等。3、互联网数据。在一个可选的实现方式中,可以通过网络爬虫获取相关的互联网数据。在本申请中,样本数据具有已知的业务标签,例如,从某购物平台获取某用户的个人信息作为一条样本数据,由于该用户在近3个月内的消费记录反映该用户的绝大部分消费是在母婴用品方面,因此,该样本数据的业务标签可以包括“已婚”、“母婴”。在一些实施例中,上述第一属性信息至少包括:样本数据的数据源、数据格式。其中,数据格式可以为以下一种:结构化数据、半结构化数据、非结构化数据等,数据源可以为以下一种:Oracle、Hive、HDFS、Mysql、Kafka等。本文档来自技高网...

【技术保护点】
1.一种模型训练方法,其特征在于,所述方法包括:/n从样本数据中获取第一属性信息,所述第一属性信息至少包括:所述样本数据的数据源、数据格式;所述样本数据设有业务标签;/n从所述样本数据中获取第二属性信息,所述第二属性信息至少包括:所述样本数据的表描述信息、表名;/n从预设的标签集合中确定与所述样本数据相匹配的目标标签;/n将所述第一属性信息、第二属性信息、所述目标标签、所述业务标签作为训练样本存储至训练样本集,以利用所述训练样本集训练出数据标签生成模型,所述数据标签生成模型用于为待处理数据生成对应的业务标签。/n

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:
从样本数据中获取第一属性信息,所述第一属性信息至少包括:所述样本数据的数据源、数据格式;所述样本数据设有业务标签;
从所述样本数据中获取第二属性信息,所述第二属性信息至少包括:所述样本数据的表描述信息、表名;
从预设的标签集合中确定与所述样本数据相匹配的目标标签;
将所述第一属性信息、第二属性信息、所述目标标签、所述业务标签作为训练样本存储至训练样本集,以利用所述训练样本集训练出数据标签生成模型,所述数据标签生成模型用于为待处理数据生成对应的业务标签。


2.根据权利要求1所述的方法,其特征在于,所述从预设的标签集合中确定与所述样本数据相匹配的目标标签,包括:
计算所述样本数据与所述预设的标签集合中每一标签之间的相似度;
从所述预设的标签集合中选择与所述样本数据之间的相似度满足设定条件的标签,将选择出的标签确定为与所述样本数据相匹配的目标标签。


3.根据权利要求2所述的方法,其特征在于,计算所述样本数据与所述预设的标签集合中每一标签之间的相似度,包括:
将所述样本数据进行向量化表示得到第一向量;
针对所述预设的标签集合中每一标签,对该标签进行向量化表示得到第二向量,计算所述第二向量与所述第一向量之间的几何距离,将得到的结果确定为所述样本数据与该标签之间的相似度。


4.一种数据标签的生成方法,其特征在于,所述方法包括:
将待处理数据分别输入至按照如权利要求1至3任一方法训练出的N个数据标签生成模型,得到N个标签预测参数,所述标签预测参数至少包括预测标签,所述N为大于0的自然数;
依据所述N个标签预测参数确定所述待处理数据的数据标签。


5.根据权利要求4所述的方法,其特征在于,所述依据所述N个标签预测参数确定所述待处理数据的数据标签,包括:
在所述N个标签预测参数中选择满足设定条件的标签预测参数;
将选择出的标签预测参数中的预测标签确定为所述待处理数据的数据标签。


6.根据权利要求5所...

【专利技术属性】
技术研发人员:李国琪
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1