一种画像数据的构建方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32972755 阅读:70 留言:0更新日期:2022-04-09 11:42
本公开提供了一种画像数据的构建方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及自然语言处理、数据处理等领域。具体实现方案为:对从多个数据源获取的待处理数据进行特征数据处理,得到与所述待处理数据对应的多维度特征数据,所述多维度特征数据用于表征所述待处理数据对应的多种数据类型;根据所述多维度特征数据,构建画像数据。采用本公开,可以精准的构建出用于描述数据多维度特征的画像数据。的画像数据。的画像数据。

【技术实现步骤摘要】
一种画像数据的构建方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,尤其涉及自然语言处理、数据处理等领域。

技术介绍

[0002]用户画像是基于待处理数据分析获得的对用户的一种认知表达,也是后续数据分析、数据建模、匹配业务需求等数据处理的起点。该用户画像可以通过数据统计的方式得到(通过收集及统计诸如用户社会属性、生活习惯、消费行为、兴趣点等待处理数据,可以得到用户画像)。
[0003]然而,目前的用户画像构建方式过于宽泛,导致构建的用户画像不精准,无法为后续的数据分析、数据建模、匹配业务需求等数据处理提供精准的数据支持。

技术实现思路

[0004]本公开提供了一种画像数据的构建方法、装置、电子设备以及存储介质。
[0005]根据本公开的一方面,提供了一种画像数据的构建方法,包括:
[0006]对从多个数据源获取的待处理数据进行数据处理,得到与所述待处理数据对应的多维度特征数据,所述多维度特征数据用于表征所述待处理数据对应的多种数据类型;
[0007]根据所述多维度特征数据,构建画像数据。
[0008]根据本公开的另一方面,提供了一种画像数据的构建装置,包括:
[0009]获取单元,用于对从多个数据源获取的待处理数据进行特征数据处理,得到与所述待处理数据对应的多维度特征数据,所述多维度特征数据用于表征所述待处理数据对应的多种数据类型;
[0010]画像构建单元,用于根据所述多维度特征数据,构建画像数据。
[0011]根据本公开的另一方面,提供了一种电子设备,包括:
[0012]至少一个处理器;以及
[0013]与该至少一个处理器通信连接的存储器;其中,
[0014]该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任意一实施例所提供的方法。
[0015]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使该计算机执行本公开任意一项实施例所提供的方法。
[0016]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现本公开任意一项实施例所提供的方法。
[0017]采用本公开,可以从多个数据源获取待处理数据,以根据该待处理数据进行特征数据处理,得到与该待处理数据对应的多维度特征数据,其中,该多维度特征数据用于表征所述待处理数据对应的多种数据类型,可以根据该多维度特征数据构建画像数据,从而,可以精准的构建出用于描述数据多维度特征的画像数据。
[0018]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特
征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0019]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0020]图1是根据本公开实施例的一分布式集群处理场景的示意图;
[0021]图2是根据本公开实施例的画像数据的构建方法的流程示意图;
[0022]图3是根据本公开实施例的应用示例中画像基础架构的示意图;
[0023]图4是根据本公开实施例的应用示例中画像更新及建模的示意图;
[0024]图5是根据本公开实施例的画像数据的构建装置的组成结构示意图;
[0025]图6是用来实现本公开实施例的画像数据的构建方法的电子设备的框图。
具体实施方式
[0026]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0027]本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分,并不是限定顺序的意思,或者限定只有两个的意思,例如,第一特征和第二特征,是指代有两类/两个特征,第一特征可以为一个或多个,第二特征也可以为一个或多个。
[0028]另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
[0029]以数据处理的业务需求为文档下载场景为例,该文档下载场景中,用户的主要需求是找到感兴趣的文档并下载该文档,用户对文档的需求是多方面的,包括针对内容质量、时效性、热度及专业度等多种需求。目前,对文档下载场景的用户画像,只包括一些基础的特征(比如,诸如用户登录文档数据库使用的账号,用户下载过的文档等),缺少比较高级的特征(比如,对用户下载文档的内容质量打分等),而采用高级特征可以能更精准的刻画出用户画像。
[0030]为了更好的满足用户对文档下载的多方面需求,需要结合基础特征和高级特征,多维度的构建画像数据,更好的服务用户。
[0031]考虑到文档下载场景中,不仅有用户的多方面需求(比如,喜欢或者不喜欢一个或多个文档,喜欢的文档类型,哪个年龄段的用户喜欢哪类文档),还存在用户对文档的多方面需求(比如文档内容的质量好或者不好、文档是否具备时效性、文档有多少人关注的热度及文档在文艺或技术层面的专业度等),通过基础特征无法兼顾到这些多方面的需求,因此,本公开结合了基础特征和高级特征,可以根据多维度特征(基础特征和高级特征)来多
维度的构建画像数据(用户画像和文档画像),提高了所构建的该画像数据的精准性,可以为后续的数据分析、数据建模、匹配业务需求等数据处理提供精准的数据支持。
[0032]根据本公开的实施例,图1是根据本公开实施例的一分布式集群处理场景的示意图,该分布式集群系统为集群系统的一个示例,示例性的描述了可以利用该分布式集群系统进行画像数据的构建,本公开不限于单机或多机上的画像数据的构建,采用分布式的处理可以进一步提高所构建的画像数据的精度,通过画像数据的多数据源获取,多维度特征数据的分析,最终得到多维度的画像数据。如图1所示,在该分布式集群系统中包括多个节点(如服务器集群101、服务器102、服务器集群103、服务器104、服务器105,服务器105还可以连接电子设备,如手机1051及台式机1052),多个节点间,以及多个节点与连接的电子设备间可以共同执行一个或多个画像数据的构建任务。可选地,该分布式集群系统中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种画像数据的构建方法,包括:对从多个数据源获取的待处理数据进行特征数据处理,得到与所述待处理数据对应的多维度特征数据,所述多维度特征数据用于表征所述待处理数据对应的多种数据类型;根据所述多维度特征数据,构建画像数据。2.根据权利要求1所述的方法,还包括:根据所述画像数据对第一数据集合中的数据进行识别处理,得到与所述画像数据匹配的第一目标数据;或者,根据所述画像数据对第二数据集合中的数据进行聚类处理,得到与所述画像数据存在相似度的第二目标数据。3.根据权利要求1或2所述的方法,其中,所述对从多个数据源获取的待处理数据进行特征数据处理,得到与所述待处理数据对应的多维度特征数据,包括:对所述待处理数据进行第一数据处理,得到第一特征,所述第一特征用于表征所述待处理数据中第一数据和/或第一行为的基础特征;对所述待处理数据进行第二数据处理,得到第二特征,所述第二特征用于表征所述待处理数据中与所述第一数据和/或所述第一行为关联的高级特征,及所述待处理数据中所述第一数据与第二数据形成交互数据和/或交互行为情况下关联的高级特征;根据所述基础特征和所述高级特征,得到所述多维度特征数据。4.根据权利要求1或2所述的方法,其中,所述根据所述多维度特征数据,构建画像数据,包括:根据所述多维度特征数据,分别构建用户画像和文档画像;根据所述用户画像和所述文档画像,得到所述画像数据。5.根据权利要求1或2所述的方法,还包括:将从所述画像数据中提取的数据确定为初始数据;根据所述初始数据进行第三数据处理,得到第三特征,所述第三特征用于表征与所述初始数据对应的特征标签;将所述第三特征加入所述画像数据中,对所述画像数据进行更新处理。6.根据权利要求1或2所述的方法,还包括:将从所述画像数据中提取的数据确定为初始数据;根据所述初始数据进行第四数据处理,得到第四特征,所述第四特征用于表征基于所述初始数据筛选后得到的筛选特征、和/或与所述初始数据相关的衍生特征;将所述第四特征加入所述画像数据中,对所述画像数据进行更新处理。7.根据权利要求5或6所述的方法,还包括:获取目标数据,所述目标数据用于表征对所述画像数据进行更新处理后得到的更新数据;将所述目标数据确定为用于模型训练的训练数据。8.根据权利要求3所述的方法,其中,所述基础特征包括消费特征;所述高级特征包括生产特征和/或交互特征。9.一种画像数据的构建装置,包括:数据处理单元,用于对从多个数据源获取的待处理数据进行特征数据处理,得到与所
述待处理数据对应的多维度特征数据,所述多维度特征数据用于表征所述待处理数据对应的多种数据类型;画像构建单元,用于根据所述多维度特征数据,构建画像数据。10.根据权利要求9所述的装置,还包括:识别单元,用于根...

【专利技术属性】
技术研发人员:郑阳吴广发薛璐影张玉东
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1