模型训练方法、数据标签的生成方法及装置制造方法及图纸

技术编号：28941753 阅读：11 留言：0更新日期：2021-06-18 21:47

本申请提供一种模型训练方法、数据标签的生成方法及装置，模型训练方法包括：从样本数据中获取第一属性信息，第一属性信息至少包括：样本数据的数据源、数据格式；样本数据设有业务标签；从样本数据中获取第二属性信息，第二属性信息至少包括：样本数据的表描述信息、表名；从预设的标签集合中确定与样本数据相匹配的目标标签；将第一属性信息、第二属性信息、目标标签、业务标签作为训练样本存储至训练样本集，以利用训练样本集训练出数据标签生成模型，数据标签生成模型用于为待处理数据生成对应的业务标签。应用该方法，可实现利用已训练的数据标签生成模型自动生成未知标签数据的数据标签，从而提高对数据进行标签管理的效率，节省人力物力。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、数据标签的生成方法及装置
本申请涉及数据处理
，尤其涉及一种模型训练方法、数据标签的生成方法及装置。
技术介绍
随着互联网大数据的发展，标签管理已成为大数据时代的重要组成部分，其通过为数据定义具有关键字特性的数据标签，可以便于后续的数据索引与数据查找。然而，随着海量数据的诞生，很多数据由于历史原因或者其他种种原因，导致数据分布零碎、散乱，从而形成了多个数据孤岛。现有技术中，为了解决数据孤岛，可以通过人工进行数据梳理，对数据进行分门别类并定义数据标签。该种方式无疑将耗费大量的人力物力，同时，受人为经验的影响，通过该种方式为数据定义的数据标签的准确性也有待商榷。
技术实现思路
有鉴于此，本申请提供一种模型训练方法、数据标签的生成方法及装置，以解决现有技术中通过人工对数据定义数据标签，将耗费大量的人力物力，同时无法保证数据标签准确性的问题。根据本申请实施例的第一方面，提供一种模型训练方法，所述方法包括：从样本数据中获取第一属性信息，所述第一属性信息至少包括：所述样本数据的数据源、数据格式；所述样本数据设有业务标签；从所述样本数据中获取第二属性信息，所述第二属性信息至少包括：所述样本数据的表描述信息、表名；从预设的标签集合中确定与所述样本数据相匹配的目标标签；将所述第一属性信息、第二属性信息、所述目标标签、所述业务标签作为训练样本存储至训练样本集，以利用所述训练样本集训练出数据标签生成模型，所述数据标签生成模型用于为待处理数据生成对应的业...

【技术保护点】
1.一种模型训练方法，其特征在于，所述方法包括：/n从样本数据中获取第一属性信息，所述第一属性信息至少包括：所述样本数据的数据源、数据格式；所述样本数据设有业务标签；/n从所述样本数据中获取第二属性信息，所述第二属性信息至少包括：所述样本数据的表描述信息、表名；/n从预设的标签集合中确定与所述样本数据相匹配的目标标签；/n将所述第一属性信息、第二属性信息、所述目标标签、所述业务标签作为训练样本存储至训练样本集，以利用所述训练样本集训练出数据标签生成模型，所述数据标签生成模型用于为待处理数据生成对应的业务标签。/n

【技术特征摘要】
1.一种模型训练方法，其特征在于，所述方法包括：
从样本数据中获取第一属性信息，所述第一属性信息至少包括：所述样本数据的数据源、数据格式；所述样本数据设有业务标签；
从所述样本数据中获取第二属性信息，所述第二属性信息至少包括：所述样本数据的表描述信息、表名；
从预设的标签集合中确定与所述样本数据相匹配的目标标签；
将所述第一属性信息、第二属性信息、所述目标标签、所述业务标签作为训练样本存储至训练样本集，以利用所述训练样本集训练出数据标签生成模型，所述数据标签生成模型用于为待处理数据生成对应的业务标签。

2.根据权利要求1所述的方法，其特征在于，所述从预设的标签集合中确定与所述样本数据相匹配的目标标签，包括：
计算所述样本数据与所述预设的标签集合中每一标签之间的相似度；
从所述预设的标签集合中选择与所述样本数据之间的相似度满足设定条件的标签，将选择出的标签确定为与所述样本数据相匹配的目标标签。

3.根据权利要求2所述的方法，其特征在于，计算所述样本数据与所述预设的标签集合中每一标签之间的相似度，包括：
将所述样本数据进行向量化表示得到第一向量；
针对所述预设的标签集合中每一标签，对该标签进行向量化表示得到第二向量，计算所述第二向量与所述第一向量之间的几何距离，将得到的结果确定为所述样本数据与该标签之间的相似度。

4.一种数据标签的生成方法，其特征在于，所述方法包括：
将待处理数据分别输入至按照如权利要求1至3任一方法训练出的N个数据标签生成模型，得到N个标签预测参数，所述标签预测参数至少包括预测标签，所述N为大于0的自然数；
依据所述N个标签预测参数确定所述待处理数据的数据标签。

5.根据权利要求4所述的方法，其特征在于，所述依据所述N个标签预测参数确定所述待处理数据的数据标签，包括：
在所述N个标签预测参数中选择满足设定条件的标签预测参数；
将选择出的标签预测参数中的预测标签确定为所述待处理数据的数据标签。

6.根据权利要求5所...

【专利技术属性】
技术研发人员：李国琪，
申请(专利权)人：杭州海康威视数字技术股份有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人