一种融合多模式的标签体系构建方法和系统技术方案

技术编号：29837649 阅读：62 留言：0更新日期：2021-08-27 14:27

一种融合多模式的标签体系构建方法，首先基于业务需求确定目标标签，分析、判断目标标签的计算方式和标签目录层级，然后从SQL方式、模型方式、自定义方式中选择标签计算方式。SQL方式根据目标标签反向分析所需的数据资源，将数据资源存储在Hive大数据资源池，标签结果存储在ElasticSearch上，通过编写SQL逻辑代码，组建增量打标任务工作流，实现标签计算。模型方式基于标签概率模型、标签积分模型或标签组合模型实现打标。自定义方式通过上传对象唯一主键实现打标。最后激活标签计算任务。本发明专利技术以业务需求为导向，设置SQL方式、模型方式、自定义方式三种标签计算方式，满足各类标签场景；基于LightGBM算法进行模型训练，训练速度快、内存开销小、模型精度和泛化能力强。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合多模式的标签体系构建方法和系统
本专利技术涉及的是大数据分析领域，特别涉及一种融合多模式的标签体系构建方法和系统。
技术介绍
随着大数据技术的飞速发展，各行业积累的数据越来越多，数据结构愈发复杂，数据价值密度低的问题越来越突出。相关行业现已积累汇聚了人口、民航、铁路、住宿、社保等各类行业内部、互联网、政务网数据。数据体量巨大，单纯罗列记录的简单应用已经不能很好达到数据治理和整合的目的。标签是用来刻画业务实体特征的数据，通过建立相关行业数据标签体系，在多个维度上建立针对业务对象的描述性标签属性，对业务对象的特征进行勾勒刻画，构建对象的画像，更好地服务于业务应用。然而，当前缺乏一套能够适应多场景的快速构建标签的方法体系和工具，因此，有必要设计一种融合多模式的标签体系构建方法及系统。
技术实现思路
鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种融合多模式的标签体系构建方法和系统。为了解决上述技术问题，本申请实施例公开了如下技术方案：一种融合多模式的标签体系构建方法，包括：S100.基于业务需求确定目标标签，分析和确定目标标签的计算方式和标签目录层级；S200.根据确定的不同目标标签计算方式，编写计算任务逻辑；S300.根据确定的不同目标标签计算方式，激活标签计算任务。进一步地，S100中，目标标签的计算方式包括SQL方式、模型方式和自定义方式三种。进一步地，标签目录层级采用四层架构，即标签对象、一级分...

【技术保护点】
1.一种融合多模式的标签体系构建方法，其特征在于，包括：/nS100.基于业务需求确定目标标签，分析和确定目标标签的计算方式和标签目录层级；/nS200.根据确定的不同目标标签计算方式，编写计算任务逻辑；/nS300.根据确定的不同目标标签计算方式，激活标签计算任务。/n

【技术特征摘要】
1.一种融合多模式的标签体系构建方法，其特征在于，包括：
S100.基于业务需求确定目标标签，分析和确定目标标签的计算方式和标签目录层级；
S200.根据确定的不同目标标签计算方式，编写计算任务逻辑；
S300.根据确定的不同目标标签计算方式，激活标签计算任务。

2.如权利要求1的一种融合多模式的标签体系构建方法，其特征在于，S100中，目标标签的计算方式包括SQL方式、模型方式和自定义方式三种。

3.如权利要求1的一种融合多模式的标签体系构建方法，其特征在于，S100中，标签目录层级采用四层架构，即标签对象、一级分类、二级分类、标签。

4.如权利要求2的一种融合多模式的标签体系构建方法，其特征在于，S200中，当目标标签的计算方式为SQL方式时，具体方法为：根据目标标签反向分析所需的数据资源，将数据资源存储在Hive大数据资源池，标签结果存储在ElasticSearch上，通过编写SQL逻辑代码，组建增量打标任务工作流，实现标签计算。

5.如权利要求2的一种融合多模式的标签体系构建方法，其特征在于，S200中，当目标标签的计算方式为模型方式时，模型方式分为标签概率模型、标签积分模型和标签组合模型，上述模型是基于已有的标签生成新的标签。

6.如权利要求5的一种融合多模式的标签体系构建方法，其特征在于，当模型方式为标签概率模型时，具体方法为：选择模型正样本，并随机按一定比例抽取负样本，共同组成建模样本；再将建模样本划分为训练集和测试集，以标签特征值作为模型输入，然后利用LightGBM算法进行模型训练，分别计算模型在训练集、测试集上的准确率、精确率、召回率，进行模型评价；模型训练好后，数据对象的标签特征值，即可得到其研判概率，最后对概率划分阈值，超过阈值的对象打上标签，此标签为数值型标签。

7.如权利要求5的一种融合多模式的标签体系构建方法，其特征在于，当模型方式为标签积分模型时，具体方法为：...

【专利技术属性】
技术研发人员：李巍，
申请(专利权)人：武汉烽火众智数字技术有限责任公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人