处理数据的系统及其方法技术方案

技术编号:5635636 阅读:232 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及到一种处理数据的方法,该方法包括下列步骤:(210)对第一源的第一数据加密,和对第二源的第二数据加密,(220)把加密的第一和第二数据提供给服务器,服务器被阻止给加密的第一和第二数据解密,并且,阻止相互显示第一和第二源的身份,(230)对加密的第一和第二数据进行计算以获得在第一和第二数据之间的相似性值,使得第一和第二数据对第二和第一源分别是匿名的,相似性值在第一和第二数据之间提供相似性指示。该方法还可以包括使用该相似性值来为第一或第二源获得内容项的推荐的步骤(240)。第一或第二数据可以包括用户简档或内容项目的用户评价。该方法的应用之一可以是在合作筛选系统中。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及到处理数据的系统,该系统包括具有第一数据的第一源、具有第二数据的第二源、和服务器。本专利技术还涉及到处理数据的方法及处理数据的服务器。包含多个用于存储表达用户对媒体内容、购买、等等的喜好的用户数据的用户设备的信息系统是已知的。这样的信息系统通常包括一个收集用户数据的服务器。用户数据被加以分析以便确定用户数据之间的相关性,并且向一个或多个用户提供特定的服务。例如,合作筛选技术(collaborative filtering technique)是一种把大的用户集团的兴趣组合起来的内容推荐方法。以存储为基础的合作筛选技术是以确定在不同用户之间的相关性(相似性)为基础的,为此,每一个用户的评价与每一个其他用户的评价进行比较。这些相似性被用于预测一个特定的用户对内容的特定部分喜欢到什么程度。对于该预测步骤,存在着不同的可供选择的办法。除确定在用户之间的相似性以外,按照从用户接收到的评价模式,人们可以确定在项目之间的相似性。在这个含义下的一个问题是保护用户隐私的问题,用户不希望把他们的兴趣显示给服务器或者其他用户。本专利技术的一个目的是要消除现有技术的系统的缺陷,并且,提供一种处理数据的系统,其中,用户隐私得以保护。这一目的是通过包括下列内容的系统实现的-用于加密第一数据的第一源,和用于加密第二数据的第二源,-一个配置成获得加密的第一和第二数据的服务器,该服务器被阻止为加密的第一和第二数据解密,并且,被阻止相互显示第一和第二源的身份,-计算装置,用于对加密的第一和第二数据进行计算,以获得在第一和第二数据之间的相似性值,使得第一和第二数据对第二和第一源分别是匿名的,相似性值提供在第一和第二数据之间的相似性的指示。在本专利技术的一个实施例中,使用皮尔逊相关性(Pearsoncorrelation)或卡帕统计数值(Kappa statistic)来获得相似性值。在另一个实施例中,计算装置是使用利用公钥共享模式的Paillier密码系统或者阈Paillier密码系统而实现的。确定相似性值所需要的计算步骤包括例如矢量内积以及共享和(sums of shares)的计算。在计算以后,把加密技术运用到数据上以保护它们。在某种意义上,这意味着仅把加密的信息发送到服务器、以及所有的计算都在加密域内进行。在本专利技术的又一个实施例中,第一或第二数据分别包括第一或第二用户的用户简档,用户简档表明第一或第二用户对媒体内容项目的用户喜好。在另一个实例中,第一或第二数据包括各个内容项目的用户评价。本专利技术的优点是用户信息得到保护。本专利技术能够被用于各种类型的推荐服务中,例如音乐或者TV表演推荐,但也能够被用于医学或金融推荐应用中,其中保护隐私是非常重要的。本专利技术的目的也在一种处理数据的方法中实现,该方法包括下列步骤,这些步骤能够-对第一源的第一数据加密,和对第二源的第二数据加密,-向服务器提供加密的第一和第二数据,该服务器被阻止给加密的第一和第二数据解密,并且,被阻止相互显示第一和第二源的身份,-对加密的第一和第二数据进行计算以获得在第一和第二数据之间的相似性值,使得第一和第二数据对第二和第一源分别是匿名的,该相似性值提供在第一和第二数据之间的相似性的指示。该方法说明本专利技术的系统的操作。在一个实施例中,该专利技术还包括使用相似性值以获得对第一或第二源的内容项目的推荐的步骤。例如,假定我们要预测对活动用户a的项目i的记分1.首先,我们计算在用户a和每一个其他用户x之间的相关性。这是通过计算在用户a的评价矢量和每一个其他用户x之间的内积经由服务器的交换实现的。按照这种方法,用户知道每一个其他用户x=1,2,...,n的相关性值,但是不知道用户x=1,2,...,n是谁。另一方面,服务器知道用户x=1,2,...,n是谁,但是不知道相关性值。2.其次,通过取这一项目的用户x=1,2,...,n的评价的某种加权平均值,我们为用户a对项目i计算预测,其中,加权值由相关性值给出。其过程是这样的用户a把相关性值加密并发送它们到服务器,服务器把它们转发到各个用户x=1,2,...,n。每一个用户x=1,2,...,n把他接收的加密的相关性值乘以他给予项目i的评价,并且把结果发送回服务器。然后,服务器仍然不能够对任何数据进行解密,于是把用户x=1,2,...,n的加密的乘积组合成为加密的和,并且,把这一终结结果发送回用户a,他能够对它解密以获得需要的结果。权利要求6说明包括第一和第二源以及服务器的系统的操作。权利要求12指明服务器的操作,该服务器确保用户的隐私,并且,能够在加密域中进行相似性值的计算。两项权利要求是相关的,并且指明实际同一个专利技术。参考下面的附图,本专利技术的这些和其他的方面将进一步被解释和说明附图说明图1是按照本专利技术的系统的一个实施例的功能框图。图2是按照本专利技术的方法的一个实施例。按照本专利技术的一个实施例,系统100被表示在图1中。该系统包括一个第一设备110(第一源),和多个第二设备190、191...199(第二源)。服务器150被耦合到第一设备和第二设备。第一设备具有第一数据,例如,媒体内容的用户评价、或者与销售的商品有关的用户喜好、或者指明给出对某些食品喜好的药方的用户的医学记录、等等。第二设备具有第二数据,例如,第二数据与第二用户的喜好相关。在一个实例中,第一设备是一个安排成存储TV节目的用户评价的TV机顶盒。第一设备还被安排成获得EPG(电子节目指南)数据,指明如相应的TV节目的广播时间、频道、标题等等。第一设备被安排成存储用户简档,用户简档存储各个TV节目的用户评价。用户简档不可能包括对EPG数据中所有节目的评价。为了确定用户是否会喜欢用户未评价的特定的节目,可以使用各种推荐技术。例如,使用合作筛选技术。然后,第一设备与存储包含有第二用户简档的第二数据的第二设备合作,以便找出第二简档是否与第一简档相似(使用相似性值),并且包括对特定节目的评价。如果在第一和第二简档之间的相似性值高于预定的阈值,那么,包括在第二简档中的评价被用于确定第一设备的用户将会喜欢或者不喜欢那个特定节目(预测步骤)。例如,卡帕统计数值或皮尔逊相关性可以被用于确定在第一和第二简档之间的相似性量度。相似性可以是在两个简档之间的距离,在两个简档之间的相等选票(vote)的数量的相关性或量度。对于预测计算,如果用户具有相同的嗜好那么相似性是高的,而如果用户具有相反的嗜好那么相似性是低的,这是必然的。例如,该距离计算在用户之间的选票的总的差值。若用户具有完全相同的嗜好则该距离是零。若用户行为举止完全相反则距离大。因此,我们必需进行这样的调整若用户投票相同则权值是高的。距离的简单量度是已知的曼哈顿(Manhattan)距离。在一个实例中,如果第二简档足够相似于第一简档(以相似性值为基础),在第一简档中未作评价的所有的内容项目(TV节目)却在第二简档中被找到。所说的这些项目就被推荐到与第一简档相关的用户。该推荐可以基于在第二简档中的项目的评价,在第一和第二简档之间的相似性值的基础上为第一简档的用户计算项目的预测评价的方法,等等。应该注意到相似性值不仅能够用于合作筛选技术的前后关系中(在内容推荐领域中),而且一般地能用于媒体内容的个性化、用户的目标广告、配对服务和其它本文档来自技高网...

【技术保护点】
一种用于处理数据的系统(100),该系统包括:-用于加密第一数据的第一源(110),和用于加密第二数据的第二源(190、191、199),-配置成获得加密的第一和第二数据的服务器(150),服务器被阻止为加密的第一和第二数据解密,并被阻止相互显示第一和第二源的身份,-计算装置(110、150、190、191、199),用于对加密的第一和第二数据进行计算以获得在第一和第二数据之间的相似性值,使得第一和第二数据对第二和第一源分别是匿名的,该相似性值提供在第一和第二数据之间的相似性的指示。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:WFJ弗海格AEM范杜伊恩霍芬JHM科尔斯特PT图尔斯
申请(专利权)人:皇家飞利浦电子股份有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1