一种面向实体和用户画像的特征融合方法技术

技术编号：22135789 阅读：33 留言：0更新日期：2019-09-18 09:25

本发明专利技术是一种面向实体和用户画像的特征融合方法，包括以下步骤：获取用户的标签信息；根据所述标签信息建立用户画像；通过基于神经网络的端到端模型对网络中实体和用户画像信息进行联合抽取；基于用户的画像，筛选出用户可能喜欢或感兴趣的实体内容；将实体和用户画像进行特征融合。本发明专利技术通过使用预训练网络中的多层特征作为实体的多层次总预训练特征，并且在实体和用户画像匹配的学习目标指导下，利用多层感知机有监督地融合和降维实体的多层次总预训练特征，生成融合实体特征。从而能够充分地利用更多有用的、不同层次的预训练特征，并从中归纳出对实体和用户画像匹配任务有用的特征和去除无用的特征，减少了噪声特征的干扰。

A Feature Fusion Method for Entity-Oriented and User-Oriented Portraits

全部详细技术资料下载

【技术实现步骤摘要】
一种面向实体和用户画像的特征融合方法
本专利技术属于大数据特征融合领域，特别涉及一种面向实体和用户画像的特征融合方法。
技术介绍
随着社会的发展与进步，用户画像的构建越来越重要，用户画像能够利用数据的多维度视图，客观真实的反映出用户的行为轨迹、习惯特点及服务需求等，为各领域的服务能力提升，数据分析的挖掘提供了必要的技术支撑，在政府大数据融合和认知领域，随着近几年的实体和用户画像匹配任务在人工智能、机器学习等领域中逐渐变得热门。我们现在可以构建一个能根据实体内容匹配合适用户画像的实体和用户画像匹配系统，反之亦然。这使得无须再进行繁琐的、重复的人工搜索，减轻工作压力。而作为一个实体和用户画像匹配系统，其必须同时关注实体和用户画像这两个属于不同模态的研究对象，因此实体和用户画像匹配是属于多模态(Multimodal)的任务，需要精准地抽取实体和用户画像的特征。特别是对于用户画像来说，由于其表达同样事物的方式更为丰富，因此获取用户画像的特征尤为困难。实际上，在实体和用户画像匹配中为了更丰富和更有效率地对用户画像进行表征，现有技术的做法是直接使用预训练网络中的单层特征去作为用户画像特征，或者对该单层特征进一步进行微调。换言之，也就只能使用到预训练任务所归纳的某一单层次特征，或者只能从该单层次特征的基础上进一步进行归纳。但是，预训练任务和实际研究的实体和用户画像匹配任务是有一定差别的。直接使用某一单层次的预训练特征会存在实体和用户画像匹配所需要的特征并没有被归纳到的情况，同时也存在大量没有作用的噪声特征。再者，对单层次的预训练特征进行微调也未能利用到其它层次的有用特征...

【技术保护点】
1.一种面向实体和用户画像的特征融合方法，其特征在于：包括以下步骤：步骤1：获取用户的标签信息；步骤2：根据所述标签信息建立用户画像；步骤3：通过基于神经网络的端到端模型对网络中实体和用户画像信息进行联合抽取；步骤4：基于用户的画像，筛选出用户可能喜欢或感兴趣的实体内容；步骤5：将实体和用户画像进行特征融合。

【技术特征摘要】
2019.03.27 CN 20191023550631.一种面向实体和用户画像的特征融合方法，其特征在于：包括以下步骤：步骤1：获取用户的标签信息；步骤2：根据所述标签信息建立用户画像；步骤3：通过基于神经网络的端到端模型对网络中实体和用户画像信息进行联合抽取；步骤4：基于用户的画像，筛选出用户可能喜欢或感兴趣的实体内容；步骤5：将实体和用户画像进行特征融合。2.根据权利要求1所述的一种面向实体和用户画像的特征融合方法，其特征在于：步骤1中所述获取用户的标签信息，包括：获取互联网中的各类数据，并将获取的互联网中的各类数据进行融合形成知识库；获取用户的上网日志；将所述上网日志与所述知识库进行匹配形成用户标签信息。3.根据权利要求1所述的一种面向实体和用户画像的特征融合方法，其特征在于：步骤2所述标签信息，包括：数据计算出来的统计类标签信息、建模算法得出的模型类标签信息、单客户标签信息和标签体系用户群信息；所述统计类标签包括地域信息、人口基本属性信息；所述模型类标签包括用户行为偏好、用户消费价值度、用户消费习惯预测。4.根据权利要求2所述的一种面向实体和用户画像的特征融合方法，其特征在于：所述获取互联网中的各类数据，并将获取的互联网中的数据进行融合形成知识库，包括：采用分布式爬虫爬取方式获取互联网各类数据；对所述获取的互联网各类数据进行细化类别，然后进行标签自动归并，并将类别进行统一。5.根据权利要求1所述的一种面向实体和用户画像的特征融合方法，其特征在于：步骤2所述根据所述标签信息建立用户画像的步骤包括：将用户的一个或者多个标签信息组成一个文本向量；将所述文本向量作为用户的用户画像。6.根据权利要求1所述的一种面向实体和用户画像的特征融合方法，其特征在于：步骤4所述基于用户的画像，筛选出用户可能喜欢或感兴趣的内容，包括：根据用户在网络中的历史数据进行数据分析，分析用户可能喜欢或者感兴趣的内容；所述历史数据包括用户的消费习惯数据、浏览网页数...

【专利技术属性】
技术研发人员：王晓东，丁香乾，王清，
申请(专利权)人：中国海洋大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人