一种融合多模式的标签体系构建方法和系统技术方案

技术编号:29837649 阅读:62 留言:0更新日期:2021-08-27 14:27
一种融合多模式的标签体系构建方法,首先基于业务需求确定目标标签,分析、判断目标标签的计算方式和标签目录层级,然后从SQL方式、模型方式、自定义方式中选择标签计算方式。SQL方式根据目标标签反向分析所需的数据资源,将数据资源存储在Hive大数据资源池,标签结果存储在ElasticSearch上,通过编写SQL逻辑代码,组建增量打标任务工作流,实现标签计算。模型方式基于标签概率模型、标签积分模型或标签组合模型实现打标。自定义方式通过上传对象唯一主键实现打标。最后激活标签计算任务。本发明专利技术以业务需求为导向,设置SQL方式、模型方式、自定义方式三种标签计算方式,满足各类标签场景;基于LightGBM算法进行模型训练,训练速度快、内存开销小、模型精度和泛化能力强。

【技术实现步骤摘要】
一种融合多模式的标签体系构建方法和系统
本专利技术涉及的是大数据分析领域,特别涉及一种融合多模式的标签体系构建方法和系统。
技术介绍
随着大数据技术的飞速发展,各行业积累的数据越来越多,数据结构愈发复杂,数据价值密度低的问题越来越突出。相关行业现已积累汇聚了人口、民航、铁路、住宿、社保等各类行业内部、互联网、政务网数据。数据体量巨大,单纯罗列记录的简单应用已经不能很好达到数据治理和整合的目的。标签是用来刻画业务实体特征的数据,通过建立相关行业数据标签体系,在多个维度上建立针对业务对象的描述性标签属性,对业务对象的特征进行勾勒刻画,构建对象的画像,更好地服务于业务应用。然而,当前缺乏一套能够适应多场景的快速构建标签的方法体系和工具,因此,有必要设计一种融合多模式的标签体系构建方法及系统。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种融合多模式的标签体系构建方法和系统。为了解决上述技术问题,本申请实施例公开了如下技术方案:一种融合多模式的标签体系构建方法,包括:S100.基于业务需求确定目标标签,分析和确定目标标签的计算方式和标签目录层级;S200.根据确定的不同目标标签计算方式,编写计算任务逻辑;S300.根据确定的不同目标标签计算方式,激活标签计算任务。进一步地,S100中,目标标签的计算方式包括SQL方式、模型方式和自定义方式三种。进一步地,标签目录层级采用四层架构,即标签对象、一级分类、二级分类、标签。进一步地,当目标标签的计算方式为SQL方式时,具体方法为:根据目标标签反向分析所需的数据资源,将数据资源存储在Hive大数据资源池,标签结果存储在ElasticSearch上,通过编写SQL逻辑代码,组建增量打标任务工作流,实现标签计算。进一步地,S200中,当目标标签的计算方式为模型方式时,模型方式分为标签概率模型、标签积分模型和标签组合模型,上述模型是基于已有的标签生成新的标签。进一步地,当模型方式为标签概率模型时,具体方法为:选择模型正样本,并随机按一定比例抽取负样本,共同组成建模样本;再将建模样本划分为训练集和测试集,以标签特征值作为模型输入,然后利用LightGBM算法进行模型训练,分别计算模型在训练集、测试集上的准确率、精确率、召回率,进行模型评价;模型训练好后,数据对象的标签特征值,即可得到其研判概率,最后对概率划分阈值,超过阈值的对象打上标签,此标签为数值型标签。进一步地,当模型方式为标签积分模型时,具体方法为:首先配置标签积分规则,然后基于ElasticSearch进行积分加权求和计算,最后对积分划分阈值,超过阈值的对象打上标签,此标签为数值型标签。进一步地,当模型方式为标签组合模型时,具体方法为:首先配置标签交、并、补计算逻辑,筛选出对象群体,然后其打上新的标签,此标签为类别型标签。进一步地,当目标标签的计算方式为自定义方式时,具体方法为:输入对象唯一主键,对其打上自定义标签,此类标签为类别型标签。本专利技术还公开了一种融合多模式的标签体系构建系统,包括:标签目录模块、标签新建模块、任务配置模块、任务调度模块、任务监控模块;其中:标签目录模块:用于自定义配置标签层级目录树,目录树分为一级分类、二级分类、三级分类;标签新建模块:用于标签元数据编辑和存储,填写标签基本信息,包括标签名称、标签层级、标签说明、标签同义词,可以一次添加多组标签;任务配置模块:用于配置标签计算任务逻辑。对于SQL方式,需要配置任务描述、特征类别、特征名称、映射规则、更新方式、更新周期、增量SQL。对于模型方式:需要填写任务描述、模型类别、选择模型、特征类别、特征名称、更新周期;其中标签概率模型还需设定概率阈值范围,积分模型需设定积分阈值范围。对于自定义方式,需要填写任务描述、特征类别、特征名称。任务调度模块:用于激活标签计算任务,实现定时调度;对于SQL方式和模型方式的标签计算任务,设置标签任务的有效期,激活后基于定时器进行任务调度。对于自定义方式,激活直接上传对象文件,一次性完成打标。任务监控模块:用于监控标签调度任务的执行状态,只对SQL方式和模型方式的任务进行监控。异常任务分为跑批异常和增量异常;跑批异常是检测任务批次的执行状态,若任务执行失败,则进行预警,并返回失败原因;增量异常是检测标签批次前后的数据量变化,若当前批次标签增量为0,则进行预警。本专利技术实施例提供的上述技术方案的有益效果至少包括:本专利技术提供的一种融合多模式的标签体系构建方法,首先基于业务需求确定目标标签,分析、判断目标标签的计算方式和标签目录层级,然后从SQL方式、模型方式、自定义方式中选择标签计算方式。SQL方式根据目标标签反向分析所需的数据资源,将数据资源存储在Hive大数据资源池,标签结果存储在ElasticSearch上,通过编写SQL逻辑代码,组建增量打标任务工作流,实现标签计算。模型方式基于标签概率模型、标签积分模型、或标签组合模型实现打标。自定义方式通过上传对象唯一主键实现打标。最后激活标签计算任务,对于SQL方式和模型方式的标签计算任务,设置标签任务的有效期,激活后基于定时器进行任务调度。对于自定义方式,激活直接上传对象文件,一次性完成打标。其效果在于:第一,以业务需求为导向,设置SQL方式、模型方式、自定义方式三种标签计算方式,满足各类标签场景;第二,基于LightGBM算法进行模型训练,训练速度快、内存开销小、模型精度和泛化能力较强。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术实施例1中,一种融合多模式的标签体系构建方法的流程图;图2为本专利技术实施例1中,一种融合多模式的标签体系构建系统的结构图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。为了解决现有技术中存在的缺乏一套能够适应多场景的快速构建标签的方法体系和工具问题,本专利技术实施例提供一种融合多模式的标签体系构建方法和系统。实施例1本实施例公开了一种融合多模式的标签体系构建方法,如图1,包括:S100.基于业务需求确定目标标签,分析和确定目标标签的计算方式和标签目录层级。具体的,标签计算方式分为SQL方式、模型方式和自定义方式三种。标签目录层级一般采用四层架构,即标签对象、一级分类、二级分类、标签。标签包含标签值和特征值,标签值表示对象是否具有该标签,记为True、False,特征值为标签的量本文档来自技高网...

【技术保护点】
1.一种融合多模式的标签体系构建方法,其特征在于,包括:/nS100.基于业务需求确定目标标签,分析和确定目标标签的计算方式和标签目录层级;/nS200.根据确定的不同目标标签计算方式,编写计算任务逻辑;/nS300.根据确定的不同目标标签计算方式,激活标签计算任务。/n

【技术特征摘要】
1.一种融合多模式的标签体系构建方法,其特征在于,包括:
S100.基于业务需求确定目标标签,分析和确定目标标签的计算方式和标签目录层级;
S200.根据确定的不同目标标签计算方式,编写计算任务逻辑;
S300.根据确定的不同目标标签计算方式,激活标签计算任务。


2.如权利要求1的一种融合多模式的标签体系构建方法,其特征在于,S100中,目标标签的计算方式包括SQL方式、模型方式和自定义方式三种。


3.如权利要求1的一种融合多模式的标签体系构建方法,其特征在于,S100中,标签目录层级采用四层架构,即标签对象、一级分类、二级分类、标签。


4.如权利要求2的一种融合多模式的标签体系构建方法,其特征在于,S200中,当目标标签的计算方式为SQL方式时,具体方法为:根据目标标签反向分析所需的数据资源,将数据资源存储在Hive大数据资源池,标签结果存储在ElasticSearch上,通过编写SQL逻辑代码,组建增量打标任务工作流,实现标签计算。


5.如权利要求2的一种融合多模式的标签体系构建方法,其特征在于,S200中,当目标标签的计算方式为模型方式时,模型方式分为标签概率模型、标签积分模型和标签组合模型,上述模型是基于已有的标签生成新的标签。


6.如权利要求5的一种融合多模式的标签体系构建方法,其特征在于,当模型方式为标签概率模型时,具体方法为:选择模型正样本,并随机按一定比例抽取负样本,共同组成建模样本;再将建模样本划分为训练集和测试集,以标签特征值作为模型输入,然后利用LightGBM算法进行模型训练,分别计算模型在训练集、测试集上的准确率、精确率、召回率,进行模型评价;模型训练好后,数据对象的标签特征值,即可得到其研判概率,最后对概率划分阈值,超过阈值的对象打上标签,此标签为数值型标签。


7.如权利要求5的一种融合多模式的标签体系构建方法,其特征在于,当模型方式为标签积分模型时,具体方法为:...

【专利技术属性】
技术研发人员:李巍
申请(专利权)人:武汉烽火众智数字技术有限责任公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1