当前位置: 首页 > 专利查询>祁勇专利>正文

一种获取用户和文档个性化特征的方法和系统技术方案

技术编号:9618324 阅读:85 留言:0更新日期:2014-01-30 06:09
本发明专利技术提出了一种获取用户和文档个性化特征的方法和系统。所述方法通过用户访问文档的信号,来自动地更新用户和文档的个性化特征。用户的个性化特征依据所述用户访问过的文档的个性化特征进行更新;文档的个性化特征依据访问过该文档的用户的个性化特征进行更新。根据获取的用户和文档的个性化特征,可在搜索引擎中实现个性化的文档排序以及在社交网络中实现个性化的信息过滤和筛选。本发明专利技术还提出了一种获取用户和文档个性化特征的系统。本发明专利技术方法能够提高搜索引擎的查准率和社交网络的信息检索效率。另外,本发明专利技术方法还能够提高网页排名算法的反作弊能力。

Method and system for acquiring user and document personalized characteristics

The invention provides a method and a system for acquiring personalized features of users and documents. The method dynamically updates user and document personalization characteristics through user access to document signals. The personalization characteristics of the user are updated according to the personalized characteristics of the document accessed by the user, and the personalized characteristics of the document are updated according to the personalized characteristics of the user accessing the document. According to the personalized characteristics of users and documents, personalized document sorting can be implemented in search engines, and personalized information filtering and filtering can be implemented in social networks. The invention also provides a system for acquiring personalized features of users and documents. The method of the invention can improve the precision of search engines and the efficiency of information retrieval of social networks. In addition, the method of the invention can improve the anti cheating capability of the web page ranking algorithm.

【技术实现步骤摘要】
一种获取用户和文档个性化特征的方法和系统
本专利技术涉及互联网领域,具体来说涉及一种获取用户和文档个性化特征的方法和系统。
技术介绍
搜索引擎和社交网络是互联网上获取信息的主要工具。这两种工具的缺点是不能根据用户的特征差异来进行信息的过滤和筛选。例如,不同的用户在同一个搜索引擎中输入相同的关键字,其得到的搜索结果是相同的,与哪个用户提交的搜索查询无关;不同的用户在同一个社交网络中建立相同的关系网络,其获得的信息也是相同的,与哪个用户建立的关系网络无关。在现有搜索技术中,核心技术是排序算法,最为有效的排序算法是超链分析算法,例如谷歌的PageRank算法。超链分析算法的输入是由网页设计者根据其主观意愿构建的网页链接关系。尽管它充分反映了网页设计者的个人偏好和对网页链接关系的理解,但是它却无法反映出搜索引擎的使用者——用户的个人偏好。由于从事不同行业或具有不同爱好的用户对同一个网页的重要性评价通常是不同的,而PageRank等现有排序技术对每个网页只能给出唯一的网页排名,这是现有搜索技术的缺点。一个可行的技术解决方案是结合用户和网页的个性化特征来改进搜索结果,使得每个网页的排名不仅依赖于网页之间的链接关系,而且依赖于提交搜索查询的用户的个性化特征和被查询网页的个性化特征。有分析表明,借助用户和网页的个性化特征,能够提高搜索引擎的查准率,减少用户对无效信息的扫描和浏览。在现有社交网络技术中,用户通过自己建立的关系网络来获取信息,例如通过关注(follow)他人和加好友等操作来获取他人发布的信息。被关注的人和加为好友的人越多,用户获得的信息也越多。由于担心有重要的或者有趣的信息被遗漏,用户通常会在社交网络中关注更多的人或者加入更多的好友。但是,当关系网络中的用户数量超过邓巴数(Dunbar) 150之后,微博和脸谱(Facebook)等社交网络会逐渐成为对用户进行“信息轰炸”的服务。其原因是现有社交网络技术要求用户必须接收其关系网络中的所有用户发布的所有信息,而不能按信息类别有选择地接收这些信息,这是现有社交网络技术的缺点。一个可行的技术解决方案是让用户获得的信息不仅依赖用户建立的关系网络,而且依赖用户的个性化特征和获取的信息的个性化特征。这将有助于对社交网络上的海量信息进行有效地过滤和筛选,提高社交网络的信息检索效率。为了叙述方便,我们通常把用户在社交网络上获得的每条信息(如一条微博),也看作一个文档。要实现上述两个技术解决方案,其必要条件是能够获取用户和网页文档的个性化特征。但是在互联网上获取用户和网页文档的个性化特征通常是困难的,主要有以下几个难点。第一是个性化信息的自动获取问题。据估算目前互联网上有5000亿个网页和20亿用户,手工维护网页文档和用户的个性化特征是不现实的。如何自动获取用户和网页文档的个性化特征是一个难题。第二是个性化信息的更新问题。随着时间的推移,用户的兴趣爱好、工作地点、从事的行业和教育程度等个人信息会发生改变,但是要求大多数用户实时地更新其个性化信息是困难的。第三是个性化信息的语义差异问题。在用户设置的个性化特征中,术语不同但语义相同的个性化特征,难以对其进行有效归类。第四是个性化信息的完备性问题。用户在网站上提供的个人信息通常比较简略。例如对用户兴趣爱好的描述通常是喜欢音乐、打棒球或看书等几项内容,而要求用户全面地描述出其感兴趣的领域是困难的。综上所述,如何有效地获取用户和文档的个性化特征,并根据所述个性化特征来提高搜索引擎的查准率以及提高社交网络的信息检索效率,是一个亟待解决的问题。
技术实现思路
鉴于上述现有技术存在的问题,本专利技术的目的在于提供一种获取用户和文档个性化特征的方法和系统,来自动获取用户和文档的个性化特征,并根据所述个性化特征来帮助用户过滤和筛选其在互联网上获得的信息。根据以上所述的目的,本专利技术提出了一种获取用户和文档个性化特征的方法,其特征在于,在接入互联网的服务器中,存储由多个用户标识组成的用户集U和由多个文档标识组成的文档集D ;存储由多个特征标识组成的特征集K ; 在所述服务器中,为所述用户集U中的至少一个用户或者所述文档集D中的至少一个文档设置参数向量初始值;在所述服务器中,多次执行如下步骤:接收任意一个用户m(m e U)访问任意一个文档n(n e D)的信号;根据所述信号,读取所述用户m的参数向量U(m) = (uwml, uwm2,..., uwmk,...,uwmL),其中所述uwmk表示所述用户m与特征k(k e K)的相关度;根据所述信号,读取所述文档η的参数向量D(n) = (dwnl, dwn2,..., (Iwnk,...,dw?L),其中所述dwnk表示所述文档η与特征k(k e K)的相关度;应用参数向量更新算法,更新所述用户m和所述文档η的参数向量;设更新后所述用户m的参数向量为U* (m) = (uwml*, UWm2*,..., uwmk*,..., uwmL*),更新后所述文档η的参数向量为DiXn) = (dwnl*, dwn2*..., dwnk*,..., dwnL*),则所述参数向量更新算法包括:U* (m) = F1 [U (m), D (η)];D* (n) = F2 [U (m), D (η)];其中所述匕(.)和所述F2(.)分别是以所述U(m)和所述D(n)为自变量的函数。与现有技术相比,本专利技术可实现个性化的文档排序,进而提高了搜索引擎的查准率以及提高社交网络的信息检索效率。另外,利用网页文档的个性化特征还能够提高网页排序算法的反作弊能力。【附图说明】图1为在用户集U中每个用户的参数向量表示方法;图2为在文档集D中每个文档的参数向量表示方法;图3为用户和文档的参数向量更新算法流程图;图4为在文档集D中每个文档的排序向量表示方法;图5为文档排序向量更新算法流程图;图6为基于查询向量和排序向量的个性化文档检索方法流程图;图7为基于查询向量和参数向量的个性化文档检索方法流程图;图8为一种获取用户和文档个性化特征的系统结构图;图9为一种获取用户和文档个性化特征的系统的信号序列图。【具体实施方式】结合附图对本专利技术方法作进一步详细说明。本专利方法的具体实施方案说明,包括以下几个部分。首先,说明用户集、文档集和特征集的含义以及用户和文档的参数向量表示方法;然后,说明用户和文档的参数向量更新算法;之后,说明文档的排序向量表示方法以及基于文档参数向量的文档排序算法;再后,说明基于查询向量的个性化文档检索方法;最后,说明一种获取用户和文档个性化特征的系统。首先说明用户集U、文档集D和特征集K的含义。在接入互联网的服务器中,存储由多个用户标识组成的用户集U和由多个文档标识组成的文档集D。所述用户标识是用户的唯一识别码,例如用户帐号、手机号码、Cookie识别码、IP地址、Email地址或者即时通信号码。所述文档标识是文档的唯一识别码,例如Web网页文档的URL地址、购物网站上的一个产品编号或者一则互联网广告的编号。假设所述用户集U含有M个元素,所述文档集D含有N个元素。在接入互联网的服务器中,存储由多个特征标识组成的特征集K。所述多个特征既是所述用户集U中用户的特征,又是所述文档集D中文档的特征。用户和文档使本文档来自技高网
...

【技术保护点】
一种获取用户和文档个性化特征的方法,其特征在于,在接入互联网的服务器中,存储由多个用户标识组成的用户集U和由多个文档标识组成的文档集D;存储由多个特征标识组成的特征集K;在所述服务器中,为所述用户集U中的至少一个用户或者所述文档集D中的至少一个文档设置参数向量初始值;在所述服务器中,多次执行如下步骤:接收任意一个用户m(m∈U)访问任意一个文档n(n∈D)的信号;根据所述信号,读取所述用户m的参数向量U(m)=(uwm1,uwm2,...,uwmk,...,uwmL),其中所述uwmk表示所述用户m与特征k(k∈K)的相关度;根据所述信号,读取所述文档n的参数向量D(n)=(dwn1,dwn2,...,dwnk,...,dwnL),其中所述dwnk表示所述文档n与特征k(k∈K)的相关度;应用参数向量更新算法,更新所述用户m和所述文档n的参数向量;设更新后所述用户m的参数向量为U*(m)=(uwm1*,uwm2*...,uwmk*...,uwmL*),更新后所述文档n的参数向量为D*(n)=(dwn1*,dwn2*,...,dwnk*,...,dwnL*),则所述参数向量更新算法包括:U*(m)=F1[U(m),D(n)];D*(n)=F2[U(m),D(n)];其中所述F1(·)和所述F2(·)分别是以所述U(m)和所述D(n)为自变量的函数。...

【技术特征摘要】
1.一种获取用户和文档个性化特征的方法,其特征在于, 在接入互联网的服务器中,存储由多个用户标识组成的用户集U和由多个文档标识组成的文档集D ;存储由多个特征标识组成的特征集K ; 在所述服务器中,为所述用户集U中的至少一个用户或者所述文档集D中的至少一个文档设置参数向量初始值; 在所述服务器中,多次执行如下步骤: 接收任意一个用户m(m e U)访问任意一个文档n(n e D)的信号; 根据所述信号,读取所述用户m的参数向量U (m) = (uwml, UWm2,..., uwmk,..., uwmL),其中所述uwmk表示所述用户m与特征k(k e K)的相关度; 根据所述信号,读取所述文档η的参数向量D (n) = (dwnl, (Iwn2,..., (Iwnk,..., dwnL),其中所述dwnk表示所述文档η与特征k(k e K)的相关度; 应用参数向量更新算法,更新所述用户m和所述文档η的参数向量;设更新后所述用户m的参数向量为U*(m) = (uwml*, uwm2*..., uwmk*..., uwmL*),更新后所述文档η的参数向量为D* (n) = (dwnl*, dwn2*, , dw^*, , dwnL*),则所述参数向量更新算法包括: U* (m) = F1 [U (m), D (η)]; D* (n) = F2 [U (m), D (η)]; 其中所述匕(.)和所述F2(.)分别是以所述U(m)和所述D(n)为自变量的函数。2.根据权利要求1所述的方法,其特征在于,对每个特征ke K,所述Uwmk*是所述dwnk的增函数,所述dw:是所述Uwmk的增函数。3.根据权利要求1所述的方法,其特征在于,对每个特征ke K,所述Uwmk*和所述dw:分别是所述用户m访问所述文档集D的频次的减函数。4.根据权利要求1所述的方法,其特征在于,对每个特征keK,所述UWmk*是Σ (keK)(Iwnk的减函数,所述dw:是Σ (k e κ)uwmk的减函数。5.根据权利要求1所述的方法,其特征在于,执行所述参数向量更新算法达到设定次数tl后,针对每个特征k e K,对第k个用户列向量(uwlk,uw2k,...,uwMk)进行归一化处理;执行所述参数向量更新算法达到设定次数&后,针对每个特征k e K,对第k个文档列向量(dwlk, dw2k, , dwNk)进行归一化处理。6.根据权利要求1所述的方法,其特征在于,在所述参数向量更新算法的一个应用实例中,所述Uwmk*和所述dw:的具体更新方法如下:uwmk* = β I.uwmk+ λ j (n, m, T).f1 (dwnk)(对于每个 k e K)dwnk* = β 2.(Iwnk+ λ 2(m, η, Τ).f2 (uwmk)(对于每个 k e K) 其中,所述X1(I^nuT)为在所述信号的类型T下所述文档η对所述用户m的影响系数,所述X2(m,n,T)为在所述信号的类型T下所述用户m对所述文档η的影响系数;^和β2为设定正常数;所述Kdwnk)是所述dwnk的增函数,所述f2(uwmk)是所述UWmk的增函数。7.根据权利要求6所述的方法,其特征在于,所述X1O1,m, T)和所述λ2(πι,η, Τ)分别是所述用户m访问所述文档集D的频次的减函数。8.根据权利要求6所述的方法,其特征在于,所述X1O1,m, T)和所述λ2(πι,η, Τ)分别是所述用户m的参数向量和所述文档η的参数向量之间的相似度的增函数。9.根据权利要求1所述的方法,其特征在于,所述文档集D中至少含有两个文档子集,其中文档子集S(SeD)中的每个文档都含有至少一个链接指向所述文档集D中的其它文档,文档子集E(EgD)中的每个文档都被所述文档子集S中的至少一个文档含有的链接所指向;并且s UE = D,she关Φ; 所述文档集D中的每个文档还设有排序向量,设任一文档p(p e D)的排序向量为[PR (p, I), PR (p, 2),...,PR(p,k),...,PR(p,L)],其中所述 PR(p,k)表示在特征 k(k e K)下所述文档P在所述文档集D中的排序值; 因此,排序向量更新算法如下:所述文档集D中的任意一个文档P在特征k(k e K)下的排序值,是所述文档P的每个链入文档在所述特征k下的排序值和所述链入文档与所述特征k的相关度的函数。10.根据权利要求9所述的方法,其特征在于,在所述方法的一个应用实例中,在每个特征k e K下,任一文档P e D在所述文档集D中的排序值定义为: P/?(p, k) = —~d) + d ^ PR(i, k).dwik ieT 其中,集合T(TcS)为所述文档P的链入文档集合,d表示用户通过其它文档的链接来访问所述文档P的概率,所述PR(i,k)表示...

【专利技术属性】
技术研发人员:祁勇
申请(专利权)人:祁勇
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1