当前位置: 首页 > 专利查询>祁勇专利>正文

一种获取网页和用户个性化特征的方法技术

技术编号:10451502 阅读:121 留言:1更新日期:2014-09-18 16:18
本发明专利技术提出了一种获取网页和用户个性化特征的方法。该方法首先在用户提交的搜索查询中提取关键词,并由关键词组成词序列,然后根据用户在搜索结果上点击网页的信号,应用特征传播算法更新被点击网页和词序列的特征。由于预先设置了部分网页和词序列的个性化特征,因此特征传播算法能将特征在网页和词序列之间进行扩散传播。该方法解决了网页和用户个性化特征的大范围自动获取和实时更新问题。该方法能够根据用户的个性化特征来计算网页的个性化特征,进而实现了个性化的网页检索和排序。该方法提高了搜索结果的相关性和准确性,解决了在现有搜索引擎中存在的搜索结果单一性问题。

【技术实现步骤摘要】

本专利技术涉及互联网领域,具体来说涉及。
技术介绍
搜索引擎的工作原理是从互联网提取各个网站的信息,建立起数据库,并检索与 用户查询条件相匹配的记录,按一定的排列顺序返回搜索结果。虽然现代搜索引擎已经取 得了巨大的成功,但是,它们也存在如下的缺点。 第一是搜索结果的单一性问题。现有搜索引擎假设不同的用户对同一个网页重要 程度的评价是相同的,因此,不同的用户在同一个搜索引擎中输入相同的搜索关键词,他们 所得到的搜索结果相同。而实际上不同领域内的用户对同一个网页的重要程度的评价通常 是不同的,而现有搜索引擎没有考虑到用户的个体化差异。第二是现有搜索引擎的信息服 务方式是被动的。搜索引擎只有当用户提交了搜索查询后,才能提供信息服务,而不能根据 用户的个性化特征,主动推送与用户个性化特征相关的网页信息。第三是现有搜索引擎的 信息匹配模式过于简单,导致搜索结果中含有大量的相关度低或者根本不相关的网页。 解决上述问题的一个有效方法是实现个性化搜索,而个性化搜索的关键是获取网 页和用户的个性化特征。通过网页和用户的个性化特征,就能够对现有搜索引擎提供的搜 索结果进行二次过滤和筛选,进而提高搜索结果的相关性和准确性。
技术实现思路
鉴于上述现有技术存在的问题,本专利技术的目的在于提供一种获取网页和用户个性 化特征的方法,并且根据所述个性化特征来帮助用户过滤和筛选其在互联网上获得的信 息。 根据以上所述的目的,本专利技术提出了,其 特征在于,所述方法包括在接入互联网的服务器中执行如下步骤: S1.获取并存储由用户标识组成的用户集U,由网页标识组成的网页集D,由词序 列标识组成的词序列集Q,以及由特征标识组成的特征集K ; S2.为所述网页集D中的多个网页设置参数向量初始值,以及为所述词序列集Q中 的多个词序列设置参数向量初始值,参数向量初始值缺省为零向量; S3.接收任意用户m(m e U)提交的搜索查询,并在所述搜索查询中提取关键词,以 及根据所述关键词合成词序列s(s e Q); S4.根据所述搜索查询,获取一组网页H,并将其发送给所述用户m; S5.接收所述用户m点击所述一组网页Η中的网页η的信号; S6.读取所述网页η的参数向量(dwnl,dwn2,. . .,dwnk,. . .,dWjJ,其中所述dWi表 示所述网页η与特征k(k e K)的相关度; S7.读取所述词序列s的参数向量(qwsl,qws2, · · ·,qwsk,· · ·,qwsI),其中所述qwsk 表示所述词序列s与特征k(k e K)的相关度; S8.应用如下特征传播算法,更新所述网页η和所述词序列s的参数向量:设更新 后所述网页η的参数向量为(chC,dw n2% . . .,chC,. . .,ch〇,更新后所述词序列s的参 数向量为(qwsl% qws2% · · · , qwsk% · · · , qwsI*),则所述算法包括:本文档来自技高网...

【技术保护点】
一种获取网页和用户个性化特征的方法,其特征在于,所述方法包括在接入互联网的服务器中执行如下步骤:S1.获取并存储由用户标识组成的用户集U,由网页标识组成的网页集D,由词序列标识组成的词序列集Q,以及由特征标识组成的特征集K;S2.为所述网页集D中的多个网页设置参数向量初始值,以及为所述词序列集Q中的多个词序列设置参数向量初始值,参数向量初始值缺省为零向量;S3.接收任意用户m(m∈U)提交的搜索查询,并在所述搜索查询中提取关键词,以及根据所述关键词合成词序列s(s∈Q);S4.根据所述搜索查询,获取一组网页H,并将其发送给所述用户m;S5.接收所述用户m点击所述一组网页H中的网页n的信号;S6.读取所述网页n的参数向量(dwn1,dwn2,...,dwnk,...,dwnL),其中所述dwnk表示所述网页n与特征k(k∈K)的相关度;S7.读取所述词序列s的参数向量(qws1,qws2,...,qwsk,...,qwsL),其中所述qwsk表示所述词序列s与特征k(k∈K)的相关度;S8.应用如下特征传播算法,更新所述网页n和所述词序列s的参数向量:设更新后所述网页n的参数向量为(dwn1*,dwn2*,...,dwnk*,...,dwnL*),更新后所述词序列s的参数向量为(qws1*,qws2*,...,qwsk*,...,qwsL*),则所述算法包括:dwnk*=f1[dwnk,qwsk,λ1(s,n,k)]    (对于每个)qwsk*=f2[qwsk,dwnk,λ2(n,s,k)]    (对于每个)返回所述步骤S3;其中,函数f1和f2都是增函数,所述λ1(s,n,k)为在所述特征k下所述词序列s对所述网页n的影响系数,所述λ2(n,s,k)为在所述特征k下所述网页n对所述词序列s的影响系数,且dwnk*≥dwnk,qwsk*≥qwsk,所述QKs是由所述词序列s的参数向量(qws1,qws2,...,qwsk,...,qwsL)中数值最大的Qs个分量所对应的特征组成的集合,所述DKn是由所述网页n的参数向量(dwn1,dwn2...,dwnk,...,dwnL)中数值最大的Dn个分量所对应的特征组成的集合,且所述Qs和Dn为预设参数。...

【技术特征摘要】
1. 一种获取网页和用户个性化特征的方法,其特征在于,所述方法包括在接入互联网 的服务器中执行如下步骤:51. 获取并存储由用户标识组成的用户集U,由网页标识组成的网页集D,由词序列标 识组成的词序列集Q,以及由特征标识组成的特征集K ;52. 为所述网页集D中的多个网页设置参数向量初始值,以及为所述词序列集Q中的多 个词序列设置参数向量初始值,参数向量初始值缺省为零向量;53. 接收任意用户m(m e U)提交的搜索查询,并在所述搜索查询中提取关键词,以及根 据所述关键词合成词序列s(s e Q);54. 根据所述搜索查询,获取一组网页H,并将其发送给所述用户m ;55. 接收所述用户m点击所述一组网页Η中的网页η的信号;56. 读取所述网页η的参数向量(dwnl,(kf . . . , dwnk,. . .,dWjJ,其中所述dWi表示所 述网页η与特征k(k e K)的相关度;57. 读取所述词序列s的参数向量(qwsl,qws2, · · ·,qwsk,· · ·,qwsI),其中所述qwsk表示 所述词序列s与特征k(k e K)的相关度;58. 应用如下特征传播算法,更新所述网页η和所述词序列s的参数向量:设更新后所 述网页η的参数向量为(dwnl% dwn2% . . .,dw:,. . .,dw:),更新后所述词序列s的参数向 量为(qwsi*,qws2*,· · ·,qwj,· · ·,qwsi*),则所述算法包括:(对于每个 (对于每个 返回所述步骤S3; 其中,函数和f2都是增函数,所述λ i (s,n,k)为在所述特征k下所述词序列s对所 述网页η的影响系数,所述λ 2 (n,s,k)为在所述特征k下所述网页η对所述词序列s的影 响系数,且,所述〇1^是由所述词序列s的参数向量(qwsl,qw s2,..., qwsk,. . .,Φ〇中数值最大的Qs个分量所对应的特征组成的集合,所述DKn是由所述网页η 的参数向量(dwnl,dwn2. . .,dwnk,. . .,dWi)中数值最大的0个分量所对应的特征组成的集 合,且所述Qs和Dn为预设参数。2. 根据权利要求1所述的方法,其特征在于,在所述方法的一个应用实例中,所述特征 传播算法具体包括:(对于每个 (对于每个 其中,函数gjqwj和g2(dwnk)均为增函数。3. 根据权利要求2所述的方法,其特征在于,在所述应用实例中,所述的和,其中σ i和σ 2为 预设正常数,所述q(k)和所述d(k)是与特征k相关的预设正常数。4. 根据权利要求1所述的方法,其特征在于,所述方法还包括在执行所述特征传播算 法达到预设次数h后,在每个特征k e K下,对第k个词序列列向量(qwlk,qw2k,. . .,qwsk)进 ...

【专利技术属性】
技术研发人员:祁勇
申请(专利权)人:祁勇
类型:发明
国别省市:广东;44

网友询问留言 已有1条评论
  • 来自[美国加利福尼亚州圣克拉拉县山景市谷歌公司] 2015年01月13日 15:44
    获取指取得猎取语出解放日报1982.10.4精神上的饥饿感是获取知识的第一要着
    0
1