基于Agent的元搜索引擎个性化方法技术

技术编号:9694759 阅读:120 留言:0更新日期:2014-02-21 01:08
本发明专利技术公开了一种基于Agent的元搜索引擎个性化方法,实现步骤如下,(1)判断用户是否首次使用元搜索引擎,若是,转至步骤(2),否则转至步骤(6);(2)挖掘用户浏览记录;(3)初始化用户兴趣模型;(4)划分用户群组;(5)获取组群兴趣;(6)对非首次使用元搜索引擎的用户,判断其是否需要检索信息,若是,转至步骤(7),否则转至步骤(10);(7)推荐相关信息;(8)记录用户点击链接;(9)更新用户兴趣;(10)结束。本发明专利技术所述方法根据用户兴趣对用户分组并进行相关推荐,使用户得到更具有针对性的检索结果,本发明专利技术可以用于互联网的元搜索引擎。

【技术实现步骤摘要】

本专利技术属于信息处理
,更进一步涉及互联网信息检索领域和个性化服务领域中的。本专利技术可应用于元搜索引擎优化领域中有关满足用户个性化检索需求的一种方法。
技术介绍
当前,面对互联网信息资源不断膨胀以及用户需求不断增加,为解决传统搜索引擎信息覆盖率低且不同搜索引擎检索结果重合率低、单一搜索引擎难以满足用户信息类查询需求等不足,提高用户的体验,能够集成多个搜索引擎的搜索结果并提供统一访问机制的元搜索引擎被提出。为解决元搜索引擎缺乏兴趣主动学习与信息推送能力等个性化服务,元搜索引擎个性化的相关技术被提出:通过分析用户的个性化检索意图,提供有针对性的检索服务;主动学习群组用户兴趣,推送用户感兴趣的信息。西安电子科技大学申请的专利“基于用户兴趣的个性化元搜索引擎及搜索结果处理方法”(专利申请号:200910020951.4,公布号CN101477554A)公开了一种基于用户兴趣的个性化元搜索引擎及其搜索结果处理方法。该方法通过用户主动选择网站提供的兴趣类别并设置权值大小,或者对用户搜索行为进行兴趣分析,建立用户的兴趣数据模型,作为对后续搜索结果进行个性化排序的依据。该方法存在的不足是:用户需要手动设置或者进行多次检索行为,搜索引擎才可以记录、分析、获得用户兴趣,缺少对用户使用搜索引擎之前浏览记录的挖掘;没有根据用户兴趣划分用户群组,不能更好地为具有共同兴趣的用户提供贴切的推荐信息。中兴通讯股份有限公司申请的专利“一种个性化元搜索的方法及其应用终端”(专利申请号:201010200736.5,公布号CN101853308A)公开了一种个性化元搜索的方法。该方法通过预先建立兴趣库,根据确定被搜索的关键词,从兴趣库中提取使用日志,并对搜索引擎返回的搜索结果进行预处理,利用使用日志,对与处理后的搜索结果和兴趣库中对应所述被搜索的关键词的资源定位符的兴趣度进行计算,根据计算结果排序并显示。该方法存在的不足是:通过资源定位符来表达兴趣,但是由于网络的不确定性导致资源定位符可能会失效,因而其并不适于表示用户兴趣;没有根据用户兴趣划分用户群组,不能更好地为具有共同兴趣的用户提供贴切的推荐信息。
技术实现思路
本专利技术的目的在于克服上述已有技术的不足,提出一种,通过对用户分组,在检索结果中为用户提供相同兴趣组内用户推荐的链接和兴趣词,为用户提供个性化的检索服务。本专利技术的具体思路是:通过移动Agent提取用户有效浏览记录,挖掘有效浏览记录初始化用户兴趣模型,通过公共兴趣黑板中对具有相同兴趣用户的划分实现用户分组,统计分组内的推荐兴趣词和推荐链接,在用户进行检索时将对应分组的推荐兴趣词和对应用户检索词的推荐链接在检索结果中展示给用户,从而实现对用户的个性化检索服务。为实现上述目的,本专利技术的具体步骤包括如下:(I)判断用户是否首次使用元搜索引擎,若是,转至步骤(2),否则转至步骤(6)。(2)挖掘用户浏览记录:2a)将移动Agent通过路由策略移动至用户客户端;2b)利用移动Agent过滤用户浏览记录得到有效浏览记录,并将该记录发送回服务器端。(3)初始化用户兴趣模型:3a)服务器端的个性化Agent接收移动Agent发送的用户浏览记录;3b)个性化Agent对有效浏览记录进行挖掘,利用分词工具对用户浏览的文本分词,得到文本中出现的词条及频度,将文本中出现频度大于等于5次的词条作为用户兴趣词,利用朴素贝叶斯公式计算得到文本类别;3c)将步骤3b)中得到的兴趣词对应频度的归一化值作为兴趣词的权重,将兴趣词所属文本的类别作为兴趣词的类别,按条依次得到多个由兴趣词、权重、类别组成的三元组,将每个三元组作为一条用户兴趣向量添加到用户兴趣模型中;3d)判断用户兴趣模型所包含的用户兴趣向量数目是否超过阈值,若是,比较用户兴趣模型中全部用户兴趣向量的权重,将最低权重对应的用户兴趣向量删除,否则转至步骤 3c)。(4)划分用户群组:4a)个性化Agent将用户兴趣模型中现存用户兴趣向量发布至公共兴趣黑板;4b)公共兴趣黑板按照用户兴趣向量中兴趣词的类别,将具有同类兴趣词的用户划分为同一分组。(5)获取群组兴趣:5a)提取公共兴趣黑板中每个分组内用户发布的用户兴趣向量中的兴趣词;5b)统计每组中发布同一兴趣词的用户人数,将兴趣词按照发布用户人数的多少按照从多到少排序,提取其中前五个兴趣词作为对应分组的推荐兴趣词;5c)统计公共兴趣黑板中每个分组内除当前第一次使用元搜索引擎的用户外,其他用户检索后对检索结果链接的点击次数,将对同一检索词的检索结果中被点击次数最高的三个链接作为相应分组中对应该检索词的推荐链接。(6)对非首次使用元搜索引擎的用户,判断其是否需要检索信息,若是,转至步骤(7),否则转至步骤(10)。(7)推荐相关信息:公共兴趣黑板按照进行检索用户的用户兴趣向量中兴趣词的类别,将具有同类兴趣词的用户划分到同一分组,个性化Agent将对应分组的推荐兴趣词和对应用户检索词的推荐链接在检索结果中展示给用户。(8)记录用户点击链接:元搜索引擎在检索结果中为用户推荐特定信息后,个性化Agent记录被用户点击的检索结果链接。(9)更新用户兴趣:9a)个性化Agent对记录的用户点击的检索结果链接进行挖掘,获取检索结果链接页面中的文本内容,利用分词工具对文本进行分词,得到文本中出现的词条及频度,将文本中出现频度大于等于5次的词条作为用户兴趣词,利用朴素贝叶斯公式计算得到文本类别;9b)将步骤9a)中得到兴趣词对应频度的归一化值作为兴趣词的权重,将兴趣词所属文本的类别作为兴趣词的类别,按条依次得到多个由兴趣词、权重、类别组成的三元组,将获得的三元组作为用户新兴趣向量;9c)判断每条用户新兴趣向量中兴趣词及其类别是否与用户兴趣模型中已有的用户旧兴趣向量中兴趣词及其类别一致,若是,将用户旧兴趣向量中的兴趣词权重更新为新兴趣向量和旧兴趣向量中两个兴趣词权重的相加值;否则,将对应用户兴趣模型中最低权重的旧兴趣向量删除,将新兴趣向量添加到用户兴趣模型中;9d)个性化Agent将更新后的用户兴趣向量发布至公共兴趣黑板中,公共兴趣黑板根据用户兴趣向量中兴趣词的类别,将具有同类兴趣词的用户划分为同一分组。(10)结束。本专利技术与现有的技术相比具有以下优点:第一,本专利技术利用移动Agent在客户端过滤用户搜索记录得到有效浏览记录,月艮务器端的个性化Agent接收并挖掘移动Agent发回的有效浏览记录,初始化用户兴趣,克服了现有技术中用户需要手动设置或者进行多次检索行为,搜索引擎才可以记录、分析、获得用户兴趣,使得本专利技术的方法可以快速的初始化用户兴趣模型,进而依据用户兴趣进行后续处理,短时间内即可为用户提供个性化推荐。第二,本专利技术通过一个阈值限制用户兴趣模型中用户兴趣向量的数目,实现了对用户兴趣的收敛,克服了现有技术中由于用户兴趣发散,用户兴趣模型不能准确表达用户兴趣的缺点,使得本专利技术更精确的表达用户当前所具有的兴趣,可以准确的划分用户群组。第三,本专利技术通过公共兴趣黑板中对具有相同兴趣用户的划分实现用户分组,统计分组内的推荐兴趣词和推荐链接,在用户进行检索时将对应分组的推荐兴趣词和对应用户检索词的推荐链接在检索结果中展示给用户。克服了现有技术中没有对用户分组本文档来自技高网
...

【技术保护点】
一种基于Agent的元搜索引擎个性化方法,包括以下步骤:(1)判断用户是否首次使用元搜索引擎,若是,转至步骤(2),否则转至步骤(6);(2)挖掘用户浏览记录:2a)将移动Agent通过路由策略移动至用户客户端;2b)利用移动Agent过滤用户浏览记录得到有效浏览记录,并将该记录发送回服务器端;(3)初始化用户兴趣模型:3a)服务器端的个性化Agent接收移动Agent发送的用户浏览记录;3b)个性化Agent对有效浏览记录进行挖掘,利用分词工具对用户浏览的文本分词,得到文本中出现的词条及频度,将文本中出现频度大于等于5次的词条作为用户兴趣词,利用朴素贝叶斯公式计算得到文本类别;3c)将步骤3b)中得到的兴趣词对应频度的归一化值作为兴趣词的权重,将兴趣词所属文本的类别作为兴趣词的类别,按条依次得到多个由兴趣词、权重、类别组成的三元组,将每个三元组作为一条用户兴趣向量添加到用户兴趣模型中;3d)判断用户兴趣模型所包含的用户兴趣向量数目是否超过阈值,若是,比较用户兴趣模型中全部用户兴趣向量的权重,将最低权重对应的用户兴趣向量删除,否则转至步骤3c);(4)划分用户群组:4a)个性化Agent将用户兴趣模型中现存用户兴趣向量发布至公共兴趣黑板;4b)公共兴趣黑板按照用户兴趣向量中兴趣词的类别,将具有同类兴趣词的用户划分为同一分组;(5)获取群组兴趣:5a)提取公共兴趣黑板中每个分组内用户发布的用户兴趣向量中的兴趣词;5b)统计每组中发布同一兴趣词的用户人数,将兴趣词按照发布用户人数的多少按照从多到少排序,提取其中前五个兴趣词作为对应分组的推荐兴趣词;5c)统计公共兴趣黑板中每个分组内除当前第一次使用元搜索引擎的用户外,其他用户检索后对检索结果链接的点击次数,将对同一检索词的检索结果中被点击次数最高 的三个链接作为相应分组中对应该检索词的推荐链接;(6)对非首次使用元搜索引擎的用户,判断其是否需要检索信息,若是,转至步骤(7),否则转至步骤(10);(7)推荐相关信息:公共兴趣黑板按照进行检索用户的用户兴趣向量中兴趣词的类别,将具有同类兴趣词的用户划分到同一分组,个性化Agent将对应分组的推荐兴趣词和对应用户检索词的推荐链接在检索结果中展示给用户;(8)记录用户点击链接:元搜索引擎在检索结果中为用户推荐特定信息后,个性化Agent记录被用户点击的检索结果链接;(9)更新用户兴趣:9a)个性化Agent对记录的用户点击的检索结果链接进行挖掘,获取检索结果链接页面中的文本内容,利用分词工具对文本进行分词,得到文本中出现的词条及频度,将文本中出现频度大于等于5次的词条作为用户兴趣词,利用朴素贝叶斯公式计算得到文本类别;9b)将步骤9a)中得到兴趣词对应频度的归一化值作为兴趣词的权重,将兴趣词所属文本的类别作为兴趣词的类别,按条依次得到多个由兴趣词、权重、类别组成的三元组,将获得的三元组作为用户新兴趣向量;9c)判断每条用户新兴趣向量中兴趣词及其类别是否与用户兴趣模型中已有的用户旧兴趣向量中兴趣词及其类别一致,若是,将用户旧兴趣向量中的兴趣词权重更新为新兴趣向量和旧兴趣向量中两个兴趣词权重的相加值;否则,将对应用户兴趣模型中最低权重的旧兴趣向量删除,将新兴趣向量添加到用户兴趣模型中;9d)个性化Agent将更新后的用户兴趣向量发布至公共兴趣黑板中,公共兴趣黑板根据用户兴趣向量中兴趣词的类别,将具有同类兴趣词的用户划分为同一分组;(10)结束。...

【技术特征摘要】
1.一种基于Agent的元搜索引擎个性化方法,包括以下步骤: (1)判断用户是否首次使用元搜索引擎,若是,转至步骤(2),否则转至步骤(6); (2)挖掘用户浏览记录: 2a)将移动Agent通过路由策略移动至用户客户端; 2b)利用移动Agent过滤用户浏览记录得到有效浏览记录,并将该记录发送回服务器端; (3)初始化用户兴趣模型: 3a)服务器端的个性化Agent接收移动Agent发送的用户浏览记录; 3b)个性化Agent对有效浏览记录进行挖掘,利用分词工具对用户浏览的文本分词,得到文本中出现的词条及频度,将文本中出现频度大于等于5次的词条作为用户兴趣词,利用朴素贝叶斯公式计算得到文本类别; 3c)将步骤3b)中得到的兴趣词对应频度的归一化值作为兴趣词的权重,将兴趣词所属文本的类别作为兴趣词的类 别,按条依次得到多个由兴趣词、权重、类别组成的三元组,将每个三元组作为一条用户兴趣向量添加到用户兴趣模型中; 3d)判断用户兴趣模型所包含的用户兴趣向量数目是否超过阈值,若是,比较用户兴趣模型中全部用户兴趣向量的权重,将最低权重对应的用户兴趣向量删除,否则转至步骤3c); (4)划分用户群组: 4a)个性化Agent将用户兴趣模型中现存用户兴趣向量发布至公共兴趣黑板; 4b)公共兴趣黑板按照用户兴趣向量中兴趣词的类别,将具有同类兴趣词的用户划分为同一分组; (5)获取群组兴趣: 5a)提取公共兴趣黑板中每个分组内用户发布的用户兴趣向量中的兴趣词; 5b)统计每组中发布同一兴趣词的用户人数,将兴趣词按照发布用户人数的多少按照从多到少排序,提取其中前五个兴趣词作为对应分组的推荐兴趣词; 5c)统计公共兴趣黑板中每个分组内除当前第一次使用元搜索引擎的用户外,其他用户检索后对检索结果链接的点击次数,将对同一检索词的检索结果中被点击次数最高的三个链接作为相应分组中对应该检索词的推荐链接; (6)对非首次使用元搜索引擎的用户,判断其是否需要检索信息,若是,转至步骤(7),否则转至步骤(10); (7)推荐相关信息: 公共兴趣黑板按照进行检索用户的用户兴趣向量中兴趣词的类别,将具有同类兴趣词的用户划分到同一分组,个性化Agent将对应分组的推荐兴趣词和对应用户检索词的推荐链接在检索结果中展示给用户;...

【专利技术属性】
技术研发人员:李青山邹延鑫孙颖成许静静习斌
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1