本发明专利技术公开了一种基于数据自学习的画像构建方法,所述方法通过定义算法,发布并授权给相应的实体算法权限,给实体定义一个标签并绑定标签与算法之间的对应关系;将一个实体下的多个标签进行分组,指定每个分组下的标签列表组合;将实体与数据集进行绑定,并指定数据集之间关联条件;构建实体画像任务。通过本发明专利技术方法进行画像构建,能够更加直观的表达实体和画像之间的关系,能够更加精细化的控制标签的生成过程、画像的构建过程,通过阈值参数和输入参数的动态调整能够更加灵活的调整算法的实现过程,从而达到算法的复用能力。另外通过分组和标签的二次关联分析,能够动态反馈标签的精准度,从而为算法参数的调整提供了依据。
【技术实现步骤摘要】
一种基于数据自学习的画像构建方法
本专利技术涉及数据画像
,具体提供一种基于数据自学习的画像构建方法。
技术介绍
数据挖掘,是利用一种工具和算法,对数据进行处理和模型训练,从而能够发现数据之间的关联关系和隐藏于数据之间信息的过程。数据画像,是利用一种工具对数据进行抽象化,提取出数据蕴含的典型特征,并赋予其标签名称,给数据内容进行打标签,同时基于一定的统计学要素、场景等描述,形成一个画像原型的过程。随着科技的发展,我们已经进入万物互联的智能时代,人与人之间的交流更加频繁,数据价值应用凸显,实现数据的智慧化应用成为各行各业的利器。企业、产品、业务、人等都可以借助数据画像从而更深刻的理解企业经营情况、产品使用情况、业务经营情况、人的健康状况等,依靠数据决策,依靠数据提供的参考,更科学更智慧。随着海量数据产生以及大数据技术的不断发展,数据之间的壁垒被打破从而实现了数据的互联互通,使得数据之间关联关系得以发掘和利用。其中画像的构建就是为了更加形象直观的展现数据之间的关系,发掘数据的价值,从而为现实中的决策、行为起到积极的指导作用。最常见的就是个人在消费互联网上的行为数据会被构建用户画像从而实现精准营销。
技术实现思路
常见的画像构建系统是通过预先设定的规则对数据进行打标签,然后进行标签分组从而按条件进行画像的直观展示,这种画像的构建方法无法满足画像的动态生成过程和画像的自学习完善能力管理服务和数据发布服务以及数据接口的转发服务,从而满足不同应用系统需求的多样性。本专利技术在已有的画像构建方式的基础上,实现画像数据的动态学习和画像参数的自动完善,即一种基于数据自学习的画像构建方法。为实现上述目的,本专利技术提供了如下技术方案:一种基于数据自学习的画像构建方法,所述方法通过定义算法,发布并授权给相应的实体算法权限,给实体定义一个标签并绑定标签与算法之间的对应关系;将一个实体下的多个标签进行分组,指定每个分组下的标签列表组合;将实体与数据集进行绑定,并指定数据集之间关联条件;构建实体画像任务。所述方法通过对实体画像任务的标签列表作为数据源进行二次关联分析,剖析实体与各标签之间的关系,对画像的精准度进行评分,并根据评分给出异常标签值,进行标签绑定算法的参数优化和逻辑优化所述实体与数据集进行绑定的过程包括内容如下:所述实体对应的数据集包含多个不同维度的数据表,各数据表之间具有一定的关联关系,绑定时将相关数据表之间的关联关系进行指定。所述构建实体画像任务的过程包括内容如下:选中实体后,展示数据集下的详细字段列表;根据需要批量选择字段,绑定字段与标签之间的输入关系,并指定标签的执行顺序和分组的统计顺序,构建实体标签任务,得到标签结果。具体实现过程如下:a)在画布中选择实体,在弹出的数据集列表中选择可用字段b)选择标签,设定阈值参数并绑定输入参数列c)指定标签结果输出路径所述标签结果同步到目标数据库中供前端的画像系统进行可视化的呈现,并可为市场分析人员进行精准营销的策略制定提供依据。所述方法通过将标签结果的作为自学习的数据来源,对各标签值以及实体数据集之间的结果预测和关联分析来检测各标签值的准确度,对于偏离过大的标签值进行参数优化和逻辑调整从而达到画像的精确化呈现。所述算法通过选择已有算法的逻辑组合进行可视化构建。所述算法通过上传第三方算法SDK构建;上传的第三方算法SDK继承平台规定的API接口。所述实体算法权限的授权包括内容如下:a)被授权的实体可在算法列表中查看到该算法,并显示有使用权;b)未授权的实体可在算法列表中看到该算法,但无使用权,该实体可提交使用申请,等待算法发布者审核。所述方法中给实体定义标签并绑定标签与算法之间的对应关系的实现过程包括内容如下:a)定义标签名称;b)指定标签的参数,阈值参数和输入参数,其中:阈值参数:预算过程中起到判断节点作用的参数值;输入参数:需要进行标签的数据内容;c)定义标签输出值。与现有技术相比,本专利技术一种基于数据自学习的画像构建方法具有以下突出的有益效果:本专利技术方法通过构建更加精准的数据画像,使得画像更加贴近现实世界中的实体,从而达到指导商业行为的目的。通过本专利技术方法进行画像构建,能够更加直观的表达实体和画像之间的关系,能够更加精细化的控制标签的生成过程、画像的构建过程,通过阈值参数和输入参数的动态调整能够更加灵活的调整算法的实现过程,从而达到算法的复用能力。另外通过分组和标签的二次关联分析,能够动态反馈标签的精准度,从而为算法参数的调整提供了依据,在不断的数据自学习过程中使得画像的精准度越来越高,为商业的应用提供更加准确的参考。附图说明图1是本专利技术方法实现流程图。具体实施方式下面将结合附图和实施例,对本专利技术作进一步详细说明。如图1所示,一种基于数据自学习的画像构建方法,所述方法的实现包括内容方案如下:(1)在平台中构建算法,上传三方算法SDK包或者通过可视化面板进行自定义,上传三方算法SDK时,需要指定算法的名称并指定输入参数、阈值参数,并对参数进行描述和限定,设定完成后进行发布,如果通过规则验证则发布成功,否则提示相应的错误信息,三方算法SDK必须继承平台定义好的算法接口,否则无法识别。通过可视化面板自定义算法时,可以对已有的算法进行逻辑组合也可以通过java或者shell进行代码编写,依然需要指定对应的输入参数和阈值参数,并对参数进行描述和限定。(2)完成算法构建之后需要进行算法发布,发布算法时需要指定实体对该算法的权限,权限配置信息如下:实体选择:属性说明All所有实体Portion部分实体,需要多选实体列表Single单个实体,需要单选实体列表权限选择:属性说明All所有权限,可见、可用、可编辑Editable可见、可编辑、不可用Viewable可见、不可用、不可编辑Usable可见、可用、不可编辑(3)在平台中给实体定义标签,指定标签名称并从被授权的算法列表中选择算法,并指定阈值参数。实体的标签定义完成后,对标签进行组合构建实体分组,注意分组内的标签不可冲突,即两个标签的逻辑含义不能有冲突,保证分组不会因为标签之间的逻辑冲突造成没有符合分组的实体数据。(4)对实体进行数据集绑定,一个实体包含多种特征,所以一个实体对应的数据集一般包含多个不同维度的数据表,这些数据表之间具有一定的关联关系,绑定实体时需要将相关数据表的关联关系进行指本文档来自技高网...
【技术保护点】
1.一种基于数据自学习的画像构建方法,其特征在于,所述方法通过定义算法,发布并授权给相应的实体算法权限,给实体定义一个标签并绑定标签与算法之间的对应关系;/n将一个实体下的多个标签进行分组,指定每个分组下的标签列表组合;/n将实体与数据集进行绑定,并指定数据集之间关联条件;/n构建实体画像任务。/n
【技术特征摘要】
1.一种基于数据自学习的画像构建方法,其特征在于,所述方法通过定义算法,发布并授权给相应的实体算法权限,给实体定义一个标签并绑定标签与算法之间的对应关系;
将一个实体下的多个标签进行分组,指定每个分组下的标签列表组合;
将实体与数据集进行绑定,并指定数据集之间关联条件;
构建实体画像任务。
2.根据权利要求1所述的一种基于数据自学习的画像构建方法,其特征在于,所述方法通过对实体画像任务的标签列表作为数据源进行二次关联分析,剖析实体与各标签之间的关系,对画像的精准度进行评分,并根据评分给出异常标签值,进行标签绑定算法的参数优化和逻辑优化。
3.根据权利要求1所述的一种基于数据自学习的画像构建方法,其特征在于,所述实体与数据集进行绑定的过程包括内容如下:
所述实体对应的数据集包含多个不同维度的数据表,各数据表之间具有一定的关联关系,绑定时将相关数据表之间的关联关系进行指定。
4.根据权利要求3所述的一种基于数据自学习的画像构建方法,其特征在于,所述构建实体画像任务的过程包括内容如下:
选中实体后,展示数据集下的详细字段列表;
根据需要批量选择字段,绑定字段与标签之间的输入关系,并指定标签的执行顺序和分组的统计顺序,构建实体标签任务,得到标签结果。
5.根据权利要求4所述的一种基于数据自学习的画像构建方法,其特征在于,所述标签结果同步到目标数据库中供前端的画像系统进行可视化的呈现,并可为市场分...
【专利技术属性】
技术研发人员:张中华,王树峥,欧钰鹏,张伟,金明林,
申请(专利权)人:济南慧天云海信息技术有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。