一种面向实体和用户画像的特征融合方法技术

技术编号:22135789 阅读:33 留言:0更新日期:2019-09-18 09:25
本发明专利技术是一种面向实体和用户画像的特征融合方法,包括以下步骤:获取用户的标签信息;根据所述标签信息建立用户画像;通过基于神经网络的端到端模型对网络中实体和用户画像信息进行联合抽取;基于用户的画像,筛选出用户可能喜欢或感兴趣的实体内容;将实体和用户画像进行特征融合。本发明专利技术通过使用预训练网络中的多层特征作为实体的多层次总预训练特征,并且在实体和用户画像匹配的学习目标指导下,利用多层感知机有监督地融合和降维实体的多层次总预训练特征,生成融合实体特征。从而能够充分地利用更多有用的、不同层次的预训练特征,并从中归纳出对实体和用户画像匹配任务有用的特征和去除无用的特征,减少了噪声特征的干扰。

A Feature Fusion Method for Entity-Oriented and User-Oriented Portraits

【技术实现步骤摘要】
一种面向实体和用户画像的特征融合方法
本专利技术属于大数据特征融合领域,特别涉及一种面向实体和用户画像的特征融合方法。
技术介绍
随着社会的发展与进步,用户画像的构建越来越重要,用户画像能够利用数据的多维度视图,客观真实的反映出用户的行为轨迹、习惯特点及服务需求等,为各领域的服务能力提升,数据分析的挖掘提供了必要的技术支撑,在政府大数据融合和认知领域,随着近几年的实体和用户画像匹配任务在人工智能、机器学习等领域中逐渐变得热门。我们现在可以构建一个能根据实体内容匹配合适用户画像的实体和用户画像匹配系统,反之亦然。这使得无须再进行繁琐的、重复的人工搜索,减轻工作压力。而作为一个实体和用户画像匹配系统,其必须同时关注实体和用户画像这两个属于不同模态的研究对象,因此实体和用户画像匹配是属于多模态(Multimodal)的任务,需要精准地抽取实体和用户画像的特征。特别是对于用户画像来说,由于其表达同样事物的方式更为丰富,因此获取用户画像的特征尤为困难。实际上,在实体和用户画像匹配中为了更丰富和更有效率地对用户画像进行表征,现有技术的做法是直接使用预训练网络中的单层特征去作为用户画像特征,或者对该单层特征进一步进行微调。换言之,也就只能使用到预训练任务所归纳的某一单层次特征,或者只能从该单层次特征的基础上进一步进行归纳。但是,预训练任务和实际研究的实体和用户画像匹配任务是有一定差别的。直接使用某一单层次的预训练特征会存在实体和用户画像匹配所需要的特征并没有被归纳到的情况,同时也存在大量没有作用的噪声特征。再者,对单层次的预训练特征进行微调也未能利用到其它层次的有用特征。因此,直接使用或微调预训练网络的某一单层次特征并没有充分地、合理地使用这种预训练特征。在实体和用户画像匹配中如何更好地利用预训练特征,准确地表征用户画像,针对政府数据开放共享中面临的数据资源整合困难,如何解决制约政府大数据在多源数据融合和认知的技术难点,面向实体对象(如人、物、事件等),综合关系型数据的准确性、开放社会数据的广泛性和行业数据的深度性特征,突破多模态数据关联和用户画像技术,具有一定的研究价值和意义。
技术实现思路
本专利技术的目的是提供一种能够充分地、合理地利用更多有用的预训练图像特征,降低特征维度,减少噪声干扰的面向实体和用户画像的特征融合方法。为实现上述目的,本专利技术的技术方案是:一种面向实体和用户画像的特征融合方法,包括以下步骤:步骤1:获取用户的标签信息;步骤2:根据所述标签信息建立用户画像;步骤3:通过基于神经网络的端到端模型对网络中实体和用户画像信息进行联合抽取;步骤4:基于用户的画像,筛选出用户可能喜欢或感兴趣的实体内容;步骤5:将实体和用户画像进行特征融合。进一步的,所述步骤1中所述获取用户的标签信息,包括:获取互联网中的各类数据,并将获取的互联网中的各类数据进行融合形成知识库;获取用户的上网日志;将所述上网日志与所述知识库进行匹配形成用户标签信息。进一步的,所述步骤2所述标签信息,包括:数据计算出来的统计类标签信息、建模算法得出的模型类标签信息、单客户标签信息和标签体系用户群信息;所述统计类标签包括地域信息、人口基本属性信息;所述模型类标签包括用户行为偏好、用户消费价值度、用户消费习惯预测。进一步的,所述获取互联网中的各类数据,并将获取的互联网中的数据进行融合形成知识库,包括:采用分布式爬虫爬取方式获取互联网各类数据;对所述获取的互联网各类数据进行细化类别,然后进行标签自动归并,并将类别进行统一。进一步的,所述步骤2所述根据所述标签信息建立用户画像的步骤包括:将用户的一个或者多个标签信息组成一个文本向量;将所述文本向量作为用户的用户画像。进一步的,所述步骤4所述基于用户的画像,筛选出用户可能喜欢或感兴趣的内容,包括:根据用户在网络中的历史数据进行数据分析,分析用户可能喜欢或者感兴趣的内容;所述历史数据包括用户的消费习惯数据、浏览网页数据、购物数据、外卖数据、团购数据、购买电影票数据、App使用习惯数据、用户画像结果数据。进一步的,所述步骤5所述将实体和用户画像进行特征融合,包括以下步骤:(1)文本表征,预设m1个分词处理好文本数据,分别为每个文本都有对应的实体,利用文本分析技术为所有文本数据生成相应的特征向量;(2)多层次实体表征,具体包括以下步骤:①预设m2个实体数据,分别为每个实体都有其对应的文本,在实体分类学习目标的指导下,利用丰富的实体分类数据集,预先训练得到一个预训练卷积神经网络;②把实体输入到该预训练卷积神经网络中,并对预训练网络中的n层特征进行拼接,以作为实体的多层次总预训练特征;(3)为了从多层次的预训练特征中归纳出对实体和用户画像匹配任务有用的特征和舍弃无用的噪声特征,构建一个多层感知机(Multi-LayerPerceptron,MLP);(4)利用实体和用户画像匹配的学习目标,指导多层感知机MLP对实体的多层次总预训练特征进行融合和降维,生成融合特征。进一步的,所述步骤①所述的实体分类数据集为ImageNet数据集。进一步的,所述步骤②中,把实体Ik输入到预训练卷积神经网络中,即可生成对应的多层次总预训练特征即其中为预训练网络中使用到的第i层特征,为了令各层特征能拼接在一起,若使用到的某层特征为卷积层特征,必须要先进行池化操作以消除空间信息,若使用到的某层特征为全连接层特征,则不必进行池化操作。进一步的,所述步骤⑶所述的多层感知机MLP的各层维度随着深度增加相应降低,以满足对高维度且包含大量噪声特征的多层次总预训练特征进行融合和降维的需要,并且该多层感知机MLP的输出层维度与文本特征的维度一致,在多层感知机MLP的隐藏层和输出层设置非线性激活函数,以增强表达能力。本专利技术的有益效果是:针对表精准治理、惠民服务等场景的需求,面向实体对象(如人、物、事件等),围绕人口、法人单位等国家基础信息数据以及信用、社保等领域数据资源,融合互联网社会面数据,提出一种从网络数据中抽取与实体和用户画像特征进行融合的方法,具有以下几个有点:(1)使用预训练网络的多个特征层能够充分地利用更多有用的、不同层次的预训练图像特征,防止实体和用户画像匹配任务未能得到充分的用户画像特征信息。(2)在实体和用户画像匹配的学习目标指导下,融合和降维的过程能在预训练特征中归纳出对实体和用户画像匹配任务有用的特征,去除无用的特征,减少了噪声特征的干扰。(3)避免了多特征融合中容易出现的特征维度过高,不同类型的特征维度不一致、计算量较大等问题,稳定性较高。采用本专利技术,能够解决政府数据开放共享中面临的数据资源整合困难,解决制约政府大数据在多源数据融合和认知的技术难点,面向实体对象(如人、物、事件等),提高关系型数据的准确性、开放社会数据的广泛性和行业数据的深度性特征。附图说明图1为本专利技术的流程示意图。具体实施方式下面结合附图实施例,对本专利技术做进一步描述:实施例1本专利技术的简要步骤参见图1,包括:(1)获取用户的标签信息;获取互联网中的各类数据,并将获取的互联网数据进行融合形成知识库;获取用户的上网日志;将所述上网日志与所述知识库进行匹配形成用户标签信息。采用分布式爬虫爬取方式获取互联网各类数据;对所述获取的互联网中的各类数据进行细化类别,然后进本文档来自技高网
...

【技术保护点】
1.一种面向实体和用户画像的特征融合方法,其特征在于:包括以下步骤:步骤1:获取用户的标签信息;步骤2:根据所述标签信息建立用户画像;步骤3:通过基于神经网络的端到端模型对网络中实体和用户画像信息进行联合抽取;步骤4:基于用户的画像,筛选出用户可能喜欢或感兴趣的实体内容;步骤5:将实体和用户画像进行特征融合。

【技术特征摘要】
2019.03.27 CN 20191023550631.一种面向实体和用户画像的特征融合方法,其特征在于:包括以下步骤:步骤1:获取用户的标签信息;步骤2:根据所述标签信息建立用户画像;步骤3:通过基于神经网络的端到端模型对网络中实体和用户画像信息进行联合抽取;步骤4:基于用户的画像,筛选出用户可能喜欢或感兴趣的实体内容;步骤5:将实体和用户画像进行特征融合。2.根据权利要求1所述的一种面向实体和用户画像的特征融合方法,其特征在于:步骤1中所述获取用户的标签信息,包括:获取互联网中的各类数据,并将获取的互联网中的各类数据进行融合形成知识库;获取用户的上网日志;将所述上网日志与所述知识库进行匹配形成用户标签信息。3.根据权利要求1所述的一种面向实体和用户画像的特征融合方法,其特征在于:步骤2所述标签信息,包括:数据计算出来的统计类标签信息、建模算法得出的模型类标签信息、单客户标签信息和标签体系用户群信息;所述统计类标签包括地域信息、人口基本属性信息;所述模型类标签包括用户行为偏好、用户消费价值度、用户消费习惯预测。4.根据权利要求2所述的一种面向实体和用户画像的特征融合方法,其特征在于:所述获取互联网中的各类数据,并将获取的互联网中的数据进行融合形成知识库,包括:采用分布式爬虫爬取方式获取互联网各类数据;对所述获取的互联网各类数据进行细化类别,然后进行标签自动归并,并将类别进行统一。5.根据权利要求1所述的一种面向实体和用户画像的特征融合方法,其特征在于:步骤2所述根据所述标签信息建立用户画像的步骤包括:将用户的一个或者多个标签信息组成一个文本向量;将所述文本向量作为用户的用户画像。6.根据权利要求1所述的一种面向实体和用户画像的特征融合方法,其特征在于:步骤4所述基于用户的画像,筛选出用户可能喜欢或感兴趣的内容,包括:根据用户在网络中的历史数据进行数据分析,分析用户可能喜欢或者感兴趣的内容;所述历史数据包括用户的消费习惯数据、浏览网页数...

【专利技术属性】
技术研发人员:王晓东丁香乾王清
申请(专利权)人:中国海洋大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1