一种基于知识的用户兴趣挖崛方法技术

技术编号:13638425 阅读:49 留言:0更新日期:2016-09-03 03:34
本发明专利技术涉及网络搜索领域,其公开了一种基于知识的用户兴趣挖崛方法,包括以下步骤:(A)系统服务器采集用户主题数据;(B)系统服务器建立用户主题兴趣模型;(C)系统服务器建立概念语义背景图;(D)系统服务器更新概念语义背景图以更新用户主题兴趣数据。本发明专利技术的有益效果是:概念语义背景图的提出,有利于网络爬行虫更好地选择爬行方向,与广度优先和传统的主题爬行方法相比,它可以更快地找到用户感兴趣的网页,在浩瀚的网页上找到有效的资源;同时,把相似度的计算提前到了概念的层面上,作语义上的匹配,可以更好地计算用户兴趣与网页的相关度。

【技术实现步骤摘要】

本专利技术涉及网络搜索领域,尤其涉及一种基于知识的用户兴趣挖崛方法
技术介绍
与概念语义背景图相关的主题爬行方面有两种:一是链接背景图,M.Diligenti,F.M.Coetzee,S.Lawrence,C.L.Giles,Focused crawling using context graphs,The 26th International Conference on Very Large Database(VLDB),2000,pp.527–534.此方法是将网络上的网页关系映射到一个图中,形成网页的链接背景图,可以用来判断待爬行的网页与用户的目标网页之间的距离,进而安排网页的爬行顺序。但链接背景图的方法是基于一种假设,在同一主题中的所有的网页之间都有一种层次关系,然而,当网页之间没有这种层次关系的时候,链接背景图的方法无法使用。二是相关背景图,H.Ching-Chi,W.Fan,Topic-specific crawling on the Web with the measurements of the relevancy context graph,Information Systems 31(2006)232–246.这种方法是对链接背景图方法的一种改进,它是基于这种假设下提出的,链接到同一个网页的那些网页,它们往往有相关的内容,语义相关的一些网页,它们也会链接到内容相关的一些网页上。但是这两种方法对相似度的判断只是停留在关键字匹配的层面上。而概念语义背景图,把相似度的计算提前到了概念的层面上,作语义上的匹配,可以更好地计算用户兴趣与网页的相关度。
技术实现思路
为了解决现有技术中的问题,本专利技术提供了一种基于知识的用户兴趣挖崛方法,解决现有技术中在网络主体爬行中相似度的判断仅仅停留在关键字匹配层面上的问题。本专利技术提供了一种基于知识的用户兴趣挖崛方法,包括以下步骤:(A)系统服务器采集用户主题数据;(B)系统服务器建立用户主题兴趣模型;(C)系统服务器建立概念语义背景图;(D)系统服务器更新概念语义背景图以更新用户主题兴趣数据。作为本专利技术的进一步改进,所述步骤(A)中,系统服务器把用户的查询词提交给搜索引擎并在返回页的结果中让用户选择有兴趣的网页并构成用户的主题兴趣集合。作为本专利技术的进一步改进,所述步骤(B)中,系统服务器通过主题兴趣集合建 立反映用户兴趣的概念图;所述系统服务器在建立用户主题兴趣模型之前先进行建概念格处理。作为本专利技术的进一步改进,所述步骤(C)中,所述系统服务器将概念格转换为可以直观表示网页间的语义关系的概念语义背景图。作为本专利技术的进一步改进,所述步骤(D)中,所述系统服务器增加或减少概念语义背景图。作为本专利技术的进一步改进,所述系统服务器将概念格转换为可以直观表示网页间的语义关系的概念语义背景图的具体方法为:系统服务器先确定核心概念并将核心概念放入概念背景图的第0层,然后再利用概念格中每个概念的属性个数的多少,把概念格中的概念映射到概念背景图相应的层次当中去。作为本专利技术的进一步改进,系统服务器利用概念格的属性词给概念格中的概念分层,其分层方法为:概念格中的核心概念插入到概念背景图的中间,作为概念背景图的第0层;在概念格中的非核心概念中,概念的属性词完全包括核心概念的属性词并与核心概念有较高的相似度的属性词作为概念背景图的第一层中的结点;在剩余的非核心概念集中,概念的属性词包括(N-i+1)个核心概念的属性词的那些概念,作为概念背景图的第i层,其中N表示核心概念中的属性词的个数,i∈[1,N]。作为本专利技术的进一步改进,系统服务器将用户选择的页面组合在一起,形成兴趣主题页面集合,采用TF-IDF对这个页面集合提取特征并进行加权统计,然后对这些特征按照权值大小排序,选择排在前面的特征作为建概念格的属性集合。作为本专利技术的进一步改进,所述属性集合包括人工智能、机器学习、知识发现、agent技术、模式识别、自然语言处理、特征提取、机器翻译以及知识表示。本专利技术的有益效果是:概念语义背景图的提出,有利于网络爬行虫更好地选择爬行方向,与广度优先和传统的主题爬行方法相比,它可以更快地找到用户感兴趣的网页,在浩瀚的网页上找到有效的资源;同时,把相似度的计算提前到了概念的层面上,作语义上的匹配,可以更好地计算用户兴趣与网页的相关度。附图说明图1是本专利技术基于概念语义背景图挖掘用户兴趣的方法的流程图。图2是本专利技术中概念格的一实施例图。图3是本专利技术中用户主题兴趣的语义背景图实施例图。图4是本专利技术中概念格转换为概念背景图的流程图。图5是本专利技术中增加概念背景图中的概念的流程图。图6是本专利技术中减少概念背景图中的概念的流程图。图7是本专利技术中8个页面作为对象集,构成的背景表。具体实施方式下面结合附图说明及具体实施方式对本专利技术进一步说明。如图1所示,一种基于知识的用户兴趣挖崛方法,包括以下步骤:(A)系统服务器采集用户主题数据;(B)系统服务器建立用户主题兴趣模型;(C)系统服务器建立概念语义背景图;(D)系统服务器更新概念语义背景图以更新用户主题兴趣数据。所述步骤(A)中,系统服务器把用户的查询词提交给搜索引擎并在返回页的结果中让用户选择有兴趣的网页并构成用户的主题兴趣集合。所述步骤(B)中,系统服务器通过主题兴趣集合建立反映用户兴趣的概念图;所述系统服务器在建立用户主题兴趣模型之前先进行建概念格处理。所述步骤(C)中,所述系统服务器将概念格转换为可以直观表示网页间的语义关系的概念语义背景图。所述步骤(D)中,所述系统服务器增加或减少概念语义背景图。所述系统服务器将概念格转换为可以直观表示网页间的语义关系的概念语义背景图的具体方法为:系统服务器先确定核心概念并将核心概念放入概念背景图的第0层,然后再利用概念格中每个概念的属性个数的多少,把概念格中的概念映射到概念背景图相应的层次当中去。系统服务器利用概念格的属性词给概念格中的概念分层,其分层方法为:概念格中的核心概念插入到概念背景图的中间,作为概念背景图的第0层;在概念格中的非核心概念中,概念的属性词完全包括核心概念的属性词并与核心概念有较高的相似度的属性词作为概念背景图的第一层中的结点;在剩余的非核心概念集中,概念的属性词包括(N-i+1)个核心概念的属性词的那些概念,作为概念背景图的第i层,其中N表示核心概念中的属性词的个数,i∈[1,N]。系统服务器将用户选择的页面组合在一起,形成兴趣主题页面集合,采用TF-IDF对这个页面集合提取特征并进行加权统计,然后对这些特征按照权值大小排序,选择排在前面的特征作为建概念格的属性集合。所述属性集合包括人工智能、机器学习、知识发现、agent技术、模式识别、自然语言处理、特征提取、机器翻译以及知识表示。用户主题数据采集:要使用概念语义背景图,首先,要构建用户的主题兴趣,通常采用用户参与的方式来确定用户的兴趣。如把用户的查询词提交给搜索引擎GOOGLE,在它返回的第一个页面的十个结果中让用户选择有兴趣的网页,构成用户的主题兴趣集合,通过这个页面集合去建立用户主题模型,即反映用户兴趣的概念图。建立用户主题兴趣模型:获得了用户兴趣主题页面集合之后,需要利用这些页面来为用户建立一个主题特征关系模型表现该主题。本文使用的本文档来自技高网
...

【技术保护点】
一种基于知识的用户兴趣挖崛方法,其特征在于包括以下步骤:步骤(A)、系统服务器采集用户主题数据;步骤(B)、系统服务器建立用户主题兴趣模型;步骤(C)、系统服务器建立概念语义背景图;步骤(D)、系统服务器更新概念语义背景图以更新用户主题兴趣数据。

【技术特征摘要】
1.一种基于知识的用户兴趣挖崛方法,其特征在于包括以下步骤:步骤(A)、系统服务器采集用户主题数据;步骤(B)、系统服务器建立用户主题兴趣模型;步骤(C)、系统服务器建立概念语义背景图;步骤(D)、系统服务器更新概念语义背景图以更新用户主题兴趣数据。2.根据权利要求1所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:所述步骤(A)中,系统服务器把用户的查询词提交给搜索引擎并在返回页的结果中让用户选择有兴趣的网页并构成用户的主题兴趣集合。3.根据权利要求2所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:所述步骤(B)中,系统服务器通过主题兴趣集合建立反映用户兴趣的概念图;所述系统服务器在建立用户主题兴趣模型之前先进行建概念格处理。4.根据权利要求3所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:所述步骤(C)中,所述系统服务器将概念格转换为可以直观表示网页间的语义关系的概念语义背景图。5.根据权利要求1所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:所述步骤(D)中,所述系统服务器增加或减少概念语义背景图。6.根据权利要求4所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:所述系统服务器将概念格转换为可以直观表示网页间的语义关系的概念语义背景图的具体方法...

【专利技术属性】
技术研发人员:孟庆瑞江静炜
申请(专利权)人:西藏飞跃智能科技有限公司
类型:发明
国别省市:西藏;54

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1