The invention provides a method and a system for acquiring personalized features of users and documents. The method dynamically updates user and document personalization characteristics through user access to document signals. The personalization characteristics of the user are updated according to the personalized characteristics of the document accessed by the user, and the personalized characteristics of the document are updated according to the personalized characteristics of the user accessing the document. According to the personalized characteristics of users and documents, personalized document sorting can be implemented in search engines, and personalized information filtering and filtering can be implemented in social networks. The invention also provides a system for acquiring personalized features of users and documents. The method of the invention can improve the precision of search engines and the efficiency of information retrieval of social networks. In addition, the method of the invention can improve the anti cheating capability of the web page ranking algorithm.
【技术实现步骤摘要】
一种获取用户和文档个性化特征的方法和系统
本专利技术涉及互联网领域,具体来说涉及一种获取用户和文档个性化特征的方法和系统。
技术介绍
搜索引擎和社交网络是互联网上获取信息的主要工具。这两种工具的缺点是不能根据用户的特征差异来进行信息的过滤和筛选。例如,不同的用户在同一个搜索引擎中输入相同的关键字,其得到的搜索结果是相同的,与哪个用户提交的搜索查询无关;不同的用户在同一个社交网络中建立相同的关系网络,其获得的信息也是相同的,与哪个用户建立的关系网络无关。在现有搜索技术中,核心技术是排序算法,最为有效的排序算法是超链分析算法,例如谷歌的PageRank算法。超链分析算法的输入是由网页设计者根据其主观意愿构建的网页链接关系。尽管它充分反映了网页设计者的个人偏好和对网页链接关系的理解,但是它却无法反映出搜索引擎的使用者——用户的个人偏好。由于从事不同行业或具有不同爱好的用户对同一个网页的重要性评价通常是不同的,而PageRank等现有排序技术对每个网页只能给出唯一的网页排名,这是现有搜索技术的缺点。一个可行的技术解决方案是结合用户和网页的个性化特征来改进搜索结果,使得每个网页的排名不仅依赖于网页之间的链接关系,而且依赖于提交搜索查询的用户的个性化特征和被查询网页的个性化特征。有分析表明,借助用户和网页的个性化特征,能够提高搜索引擎的查准率,减少用户对无效信息的扫描和浏览。在现有社交网络技术中,用户通过自己建立的关系网络来获取信息,例如通过关注(follow)他人和加好友等操作来获取他人发布的信息。被关注的人和加为好友的人越多,用户获得的信息也越多。由于担心 ...
【技术保护点】
一种获取用户和文档个性化特征的方法,其特征在于,在接入互联网的服务器中,存储由多个用户标识组成的用户集U和由多个文档标识组成的文档集D;存储由多个特征标识组成的特征集K;在所述服务器中,为所述用户集U中的至少一个用户或者所述文档集D中的至少一个文档设置参数向量初始值;在所述服务器中,多次执行如下步骤:接收任意一个用户m(m∈U)访问任意一个文档n(n∈D)的信号;根据所述信号,读取所述用户m的参数向量U(m)=(uwm1,uwm2,...,uwmk,...,uwmL),其中所述uwmk表示所述用户m与特征k(k∈K)的相关度;根据所述信号,读取所述文档n的参数向量D(n)=(dwn1,dwn2,...,dwnk,...,dwnL),其中所述dwnk表示所述文档n与特征k(k∈K)的相关度;应用参数向量更新算法,更新所述用户m和所述文档n的参数向量;设更新后所述用户m的参数向量为U*(m)=(uwm1*,uwm2*...,uwmk*...,uwmL*),更新后所述文档n的参数向量为D*(n)=(dwn1*,dwn2*,...,dwnk*,...,dwnL*),则所述参数向量更新算法包括: ...
【技术特征摘要】
1.一种获取用户和文档个性化特征的方法,其特征在于, 在接入互联网的服务器中,存储由多个用户标识组成的用户集U和由多个文档标识组成的文档集D ;存储由多个特征标识组成的特征集K ; 在所述服务器中,为所述用户集U中的至少一个用户或者所述文档集D中的至少一个文档设置参数向量初始值; 在所述服务器中,多次执行如下步骤: 接收任意一个用户m(m e U)访问任意一个文档n(n e D)的信号; 根据所述信号,读取所述用户m的参数向量U (m) = (uwml, UWm2,..., uwmk,..., uwmL),其中所述uwmk表示所述用户m与特征k(k e K)的相关度; 根据所述信号,读取所述文档η的参数向量D (n) = (dwnl, (Iwn2,..., (Iwnk,..., dwnL),其中所述dwnk表示所述文档η与特征k(k e K)的相关度; 应用参数向量更新算法,更新所述用户m和所述文档η的参数向量;设更新后所述用户m的参数向量为U*(m) = (uwml*, uwm2*..., uwmk*..., uwmL*),更新后所述文档η的参数向量为D* (n) = (dwnl*, dwn2*, , dw^*, , dwnL*),则所述参数向量更新算法包括: U* (m) = F1 [U (m), D (η)]; D* (n) = F2 [U (m), D (η)]; 其中所述匕(.)和所述F2(.)分别是以所述U(m)和所述D(n)为自变量的函数。2.根据权利要求1所述的方法,其特征在于,对每个特征ke K,所述Uwmk*是所述dwnk的增函数,所述dw:是所述Uwmk的增函数。3.根据权利要求1所述的方法,其特征在于,对每个特征ke K,所述Uwmk*和所述dw:分别是所述用户m访问所述文档集D的频次的减函数。4.根据权利要求1所述的方法,其特征在于,对每个特征keK,所述UWmk*是Σ (keK)(Iwnk的减函数,所述dw:是Σ (k e κ)uwmk的减函数。5.根据权利要求1所述的方法,其特征在于,执行所述参数向量更新算法达到设定次数tl后,针对每个特征k e K,对第k个用户列向量(uwlk,uw2k,...,uwMk)进行归一化处理;执行所述参数向量更新算法达到设定次数&后,针对每个特征k e K,对第k个文档列向量(dwlk, dw2k, , dwNk)进行归一化处理。6.根据权利要求1所述的方法,其特征在于,在所述参数向量更新算法的一个应用实例中,所述Uwmk*和所述dw:的具体更新方法如下:uwmk* = β I.uwmk+ λ j (n, m, T).f1 (dwnk)(对于每个 k e K)dwnk* = β 2.(Iwnk+ λ 2(m, η, Τ).f2 (uwmk)(对于每个 k e K) 其中,所述X1(I^nuT)为在所述信号的类型T下所述文档η对所述用户m的影响系数,所述X2(m,n,T)为在所述信号的类型T下所述用户m对所述文档η的影响系数;^和β2为设定正常数;所述Kdwnk)是所述dwnk的增函数,所述f2(uwmk)是所述UWmk的增函数。7.根据权利要求6所述的方法,其特征在于,所述X1O1,m, T)和所述λ2(πι,η, Τ)分别是所述用户m访问所述文档集D的频次的减函数。8.根据权利要求6所述的方法,其特征在于,所述X1O1,m, T)和所述λ2(πι,η, Τ)分别是所述用户m的参数向量和所述文档η的参数向量之间的相似度的增函数。9.根据权利要求1所述的方法,其特征在于,所述文档集D中至少含有两个文档子集,其中文档子集S(SeD)中的每个文档都含有至少一个链接指向所述文档集D中的其它文档,文档子集E(EgD)中的每个文档都被所述文档子集S中的至少一个文档含有的链接所指向;并且s UE = D,she关Φ; 所述文档集D中的每个文档还设有排序向量,设任一文档p(p e D)的排序向量为[PR (p, I), PR (p, 2),...,PR(p,k),...,PR(p,L)],其中所述 PR(p,k)表示在特征 k(k e K)下所述文档P在所述文档集D中的排序值; 因此,排序向量更新算法如下:所述文档集D中的任意一个文档P在特征k(k e K)下的排序值,是所述文档P的每个链入文档在所述特征k下的排序值和所述链入文档与所述特征k的相关度的函数。10.根据权利要求9所述的方法,其特征在于,在所述方法的一个应用实例中,在每个特征k e K下,任一文档P e D在所述文档集D中的排序值定义为: P/?(p, k) = —~d) + d ^ PR(i, k).dwik ieT 其中,集合T(TcS)为所述文档P的链入文档集合,d表示用户通过其它文档的链接来访问所述文档P的概率,所述PR(i,k)表示...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。