一种用于推荐系统的数据结构化处理方法技术方案

技术编号:15840450 阅读:50 留言:0更新日期:2017-07-18 16:47
本发明专利技术提供了一种用于推荐系统的数据结构化处理方法,所述方法包括:从多源业务系统中采集内容元数据、用户属性数据、用户互动数据和用户业务行为数据;根据内容元数据得到内容-内容关系矩阵II;根据用户属性数据通过相似度对用户进行合并,从而对所述用户互动数据和用户业务行为数据进行合并;根据合并后的用户互动数据得到用户-用户关系矩阵UU;根据合并后的用户业务行为数据得到初始的用户-内容关系矩阵U-I,并将该矩阵重新调整行列顺序得到排序后的用户-内容关系矩阵UI;将UU矩阵、UI矩阵与II矩阵进行相乘,得到结构化后的用户-内容关系矩阵,用于内容推荐系统。

Data structured processing method for recommender system

The invention provides a data processing method for structured recommendation system, the method includes: collecting content metadata, user attribute data, user interaction data and user behavior data from multiple business service system; according to the contents of metadata to obtain the contents of content relation matrix II; according to the similarity of the user through the user attribute data are merged to merge the user interaction data and user behavior data from user service; user relationship matrix UU according to user interaction data after the merger; according to the merged business user behavior data to obtain the initial user content relation matrix U-I, the matrix and re adjust the ranks of order sorted users get content the relationship between matrix UI; UU matrix, UI matrix and II matrix multiplication, get structured user content relation matrix Content recommendation system.

【技术实现步骤摘要】
一种用于推荐系统的数据结构化处理方法
本专利技术涉及数据结构化
,尤其涉及一种用于推荐系统的数据结构化处理方法。
技术介绍
随着互联网技术的发展,信息每天都在以惊人的速度增长,同时,信息的种类也在不断地扩展,越来越多的非结构化信息不断出现。据统计在社交媒体中大部分数据是非结构化数据,包括网络日志及内容详情描述等。在推荐系统领域,现有方法都是基于单一业务系统的结构化数据进行推荐,因此,对于多业务系统的系统数据及非结构化数据的存在无法进行推荐的问题;而很多非结构化信息里包含了有价值的数据内容。
技术实现思路
本专利技术目的在于克服目前推荐系统中存在的只能基于单一业务系统的结构化数据进行推荐的缺陷,提出了一种用于推荐系统的数据结构化处理方法,该方法可以从多个业务系统采集内容元数据、用户属性数据、用户互动数据和用户业务行为数据,将其结构化后的数据直接用于推荐系统,提供了更丰富更准确的推荐结果。为了实现上述方法,本专利技术提供了一种用于推荐系统的数据结构化处理方法,所述方法包括:从多源业务系统中采集内容元数据、用户属性数据、用户互动数据和用户业务行为数据;根据内容元数据得到内容-内容关系矩阵本文档来自技高网...
一种用于推荐系统的数据结构化处理方法

【技术保护点】
一种用于推荐系统的数据结构化处理方法,所述方法包括:从多源业务系统中采集内容元数据、用户属性数据、用户互动数据和用户业务行为数据;根据内容元数据得到内容‑内容关系矩阵II;根据用户属性数据通过相似度对用户进行合并,从而对所述用户互动数据和用户业务行为数据进行合并;根据合并后的用户互动数据得到用户‑用户关系矩阵UU;根据合并后的用户业务行为数据得到初始的用户‑内容关系矩阵U‑I,并将该矩阵重新调整行列顺序得到排序后的用户‑内容关系矩阵UI;将UU矩阵、UI矩阵与II矩阵进行相乘,得到结构化后的用户‑内容关系矩阵,用于内容推荐系统。

【技术特征摘要】
1.一种用于推荐系统的数据结构化处理方法,所述方法包括:从多源业务系统中采集内容元数据、用户属性数据、用户互动数据和用户业务行为数据;根据内容元数据得到内容-内容关系矩阵II;根据用户属性数据通过相似度对用户进行合并,从而对所述用户互动数据和用户业务行为数据进行合并;根据合并后的用户互动数据得到用户-用户关系矩阵UU;根据合并后的用户业务行为数据得到初始的用户-内容关系矩阵U-I,并将该矩阵重新调整行列顺序得到排序后的用户-内容关系矩阵UI;将UU矩阵、UI矩阵与II矩阵进行相乘,得到结构化后的用户-内容关系矩阵,用于内容推荐系统。2.根据权利要求1所述的用于推荐系统的数据结构化处理方法,其特征在于,所述方法具体包括:步骤1)从多源业务系统中采集内容元数据、用户属性数据、用户互动数据和用户业务行为数据;步骤2)计算内容元数据的向量距离,并进行归一化处理;通过内容合并,得到内容-内容关系矩阵II;步骤3)将每条用户属性数据的数据项组成用户属性向量,将该用户属性向量转换为用户数值向量,两两计算用户数值向量的相似度,通过相似度对用户进行合并;并根据合并的用户分别对步骤1)的用户互动数据和用户业务行为数据进行合并;步骤4)根据合并后的用户互动数据提取用户关系,建立用户-用户关系矩阵UU;步骤5)对合并后的用户业务行为数据进行加权统计和归一化,得到初始的用户-内容关系矩阵U-I;将初始的用户-内容关系矩阵U-I的行和列分别按照UU矩阵相同用户的行顺序、II矩阵相同内容的列顺序进行调整,得到排序后的用户-内容关系矩阵UI;步骤6)将UU矩阵、UI矩阵与II矩阵进行相乘,得到结构化后的用户-内容关系矩阵,用于内容推荐系统。3.根据权利要求2所述的用于推荐系统的数据结构化处理方法,其特征在于,所述步骤1)中的内容元数据包括:名称、导演姓名、主演列表、上映日期、语言类型和发行商;用户属性数据包括:姓名、QQ号、手机号码、邮箱地址和年龄;用户业务行为数据表示为业务行为三元组:(uid,content_id,action_id),其中uid为用户ID,content_id为本次业务行为操作的内容的ID,action_id为本次业务行为类别编码;所述业务行为类别包括:点播、评分、评论、分享和推荐,所述业务行为类别编码为每种用户业务行为类别进行的唯一性编码;用户互动数据表示为互动三元组:(interaction_id,uid_1,uid_2),其中interaction_id为本次互动数据的唯一性标识符,uid_1、uid_2为互动双方的uid。4.根据权利要求2所述的用于推荐系统的数据结构化处理方法,其特征在于,所述步骤2)具体包括:步骤2-1)将每条内容元数据的数据项组成该内容的属性向量,将该属性向量转换为数值向量;并对数值向量进行归一化处理;步骤2-2)计算不同内容数值向量的相似度;如果相似度大于第一阈值时,则判定两条内容元数据对应同一内容,将这两条内容元数据进行合并;步骤2-3)计算合并后的每条内容元数据间的相似度组成内容-内容关系矩阵II。5.根据权利要求4所述的用于推荐系统的数据结构化处理方法,其特征在于,根据业务系统...

【专利技术属性】
技术研发人员:脱立恒李南星刘学李超鹏
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1