当前位置: 首页 > 专利查询>浙江大学专利>正文

互联网热点主题相关性挖掘方法技术

技术编号:2831787 阅读:289 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种互联网热点主题相关性挖掘的方法。本发明专利技术是通过搜索引擎查询日志提取热点主题关键词,并对热点主题关键词间的相关程度进行建模分析。采用有效的哈希方法来构造稀疏矩阵,增加了算法的执行效率。本发明专利技术可以对新增的热点主题关键词和数据进行增量处理,并且便于实现分布式处理。算法仅对数据源进行一次性扫描更新相应的稀疏矩阵区域,最终进行排序得到热点主题关键词之间的相关程度的序。本发明专利技术能够准确快速地挖掘出热点主题之间的相关性,克服了现有算法性能不高,特别对于新增的热点主题关键词处理效果差的问题,能够更好的满足互联网中大规模热点主题推荐的性能要求。

【技术实现步骤摘要】

本专利技术设计属于关联规则挖掘领域,特别涉及一种互联网热点主题相关性 挖掘方法。技术背景随着互联网络的日渐普及,bl0g也被越来越多的人使用。在数据迅速膨胀 的背景下,对热点主题进行关联是梳理海量信息的一个必要和有效手段。所谓 热点主题相关性挖掘的目的是将具有内在关联的热点主题关键词从海量的数据 中快速准确的自动提取出来,并在用户检索时推荐出来。例如系统以目前用 户检索的3万多热点关键词作为待挖掘主题,在对用户博客标题作为数据源, 扫描分析得到结果文件后,当用户检索刘德华时,系统将会推荐墨攻,电影, 范冰冰,墨子等关键词,从而提升整个系统的用户满意度。但是传统的关联规 则挖掘的一个先决条件就是结果必须是高频繁词,也就是说支持度要达到一定 阈值。但是,本专利技术更侧重的是新的热点主题关键词的发现与关联,则传统的 算法不能较好的挖掘出主题关键词间的相关性。如果能对候选空间加以合理的 约束则能够克服上述的问题。目前常用的互联网热点主题挖掘的技术和方法有1. 通过提取预设类别的热门査询记录,当用户查询相关类别主题时,自动提 示本类别已经提取的热门主题。该方法只是将非热门与热门进行机械的关联, 没有主题内在的关联性,某个类别的关联主题都是一致的,用户体验很差。2. 通过编辑将特性的人,物,事件,进行关联。这样做,虽然语义上很准确, 但是因为是人工编辑,所以能够处理的量很小且不能及时自动发现网络中的热 点关联。3. 利用经典的apriori算法进行计算,但是因为apriori的局限性,对于新出 现的热点主题算法效果不佳,将对大大降低用户的体验。以上算法都不能满足及时,准确,快速挖掘互联网热点主题关联性。
技术实现思路
本专利技术目的在于提供一种,利用条件概率 来克服传统算法对于不频繁关键词处理不当的问题,并实现了对辞典与数据源 的增量式处理。本专利技术解决其技术问题采用的技术方案是,该方法的步骤如下1) 根据热门査询,提取热点主题关键词,组成热点主题关键词词典;2) 扫描数据源,对每条记录过滤热点主题关键词对,更新在稀疏矩阵中对应 的频率,同时更新每个热点主题关键词的频率;3) 采用公式<formula>formula see original document page 4</formula>来计算热点主题 关键词A与B的相关性得分;4) 将与每个热点主题关键词相关的热点主题关键词按照上述3)中的公式计 算得分并排序;5) 用户査询时,按照得分降序将与该热点主题关键词相应的热点主题关键词 作为结果反馈。2.步骤1)中,热门查询为一定时间段内用户的热点查询词,以此作为待分 析的热点主题关键词,并组成词典。步骤2)中,稀疏矩阵为问题本身特性所决定,其横纵坐标均为热点主题关 键词的标号,其全局序即热点主题关键词之间的关系以<formula>formula see original document page 4</formula>来确 定,其中x,y分别为两热点主题关键词中标号大的一个,小的一个。步骤2)中,扫描数据源时,处理每条记录,将其分词后出现的热点主题关 键词成对更新矩阵中对应的频率,并更新相应的热点主题关键词的频率。直至 处理完整个数据源。步骤3)中,当所有数据处理完毕,遍历该稀疏矩阵,并按照步骤3)中公式 计算相对得分,针对矩阵每列或每行以此得分进行排序,得出结果集。 本专利技术具有的有益效果是能够准确快速地挖掘出热点主题之间的相关性,克服了现有算法性能不高, 特别对于新增的热点主题关键词处理效果差的问题,能够更好的满足互联网中大 规模热点主题推荐的性能要求。 附图说明图1是系统整体框架图。图2是系统处理流程图。图3是稀疏矩阵的表示图。图4是增量处理的示意图。具体实施方式图1给出互联网热点主题相关性挖掘的系统框架图,首先根据热门査询, 提取热点主题关键词,组成热点主题关键词词典;然后扫描数据源,对每条记录过滤热点主题关键词对,更新在稀疏矩阵中对应的频率,同时更新每个热点 主题关键词的频率;通过计算热点主题关键词间的相关性得分,根据得分排序; 用户査询时,按照得分降序将与该热点主题关键词相应的热点主题关键词作为结果反馈。具体实施流程如图2所示,其中重要的步骤为1. 加载原始热点主题关键词词典。词典的内容应该为大多数用户所关心的热点主题关键词。加载原始热点主题关键词词典文件,利用Set数据结构来保证关 键词的唯一性,最后根据该结构中最终的顺序来确定每个热点主题关键词的 order,同时以该order为下标建立热点主题关键词数组,同时建立以热点主题关 键词为key, order为value的map数据结构。利用这两个数据结构实现string, order的双向快速査询。2. 初始化矩阵,该矩阵的横纵坐标分别都是热点主题关键词的编号,注意由 于问题的属性决定了该矩阵为稀疏矩阵,故采用hash的形式存放,例如:hashMap 等实现。按照图3方式存放,主要是因为这样分布可以保证hashcode分布的均 匀,提高HashMap的性能并且很自然的实现了增量式的处理,并且很容易实现 分布式的方案。其中关键是为一个二元的索引结构设计hash code,经过测试比 较,选择hash code生成方法如果二元索引的x坐标和y坐标,分别为x和y, 那么它的hashcode为Value = ((x-l) * (x )) / 2 + y;就有这样图3这样的hashcode 分布图。3. 扫描数据源,加载需要扫描的数据,并提取每个逻辑的文档,利用热点主 题关键词词典过滤不感兴趣的主题关键词。形成doc(i):(wl,w2,w3,...)。其中 每个w为该文档过滤后的热点主题关键词。分词后将热点主题关键词扫描计算 次序并且提交到上述矩阵。例如扫描的一条记录为(刘德华出席上海墨攻首 映式),则系统按照上述公式计算出刘德华与墨攻的hashcode (次序),将增 加相应的出现频率也就是它们的联合概率。同时,记录每个热点主题关键词出 现的概率即更新P(A)。例如某文档含有主题关键词为aababbced。提取主题关 键词对为ab, ab, ab, ac, be, ae, be, ce, ad, bd, cd, ed。将热点主题关键词的词频更 新至词典即(a, 3), (b,3), (c, 1), (e, 1), (d, 1)。将热点主题关键词对更新至矩阵 即(ab, 3), (ac, 1), (be, 1), (ae, 1), (be, 1), (ce, 1), (ad, 1), (bd, 1), (cd, 1), (ed, 1)。该过 程直至数据源扫描完毕。4. 扫描热点主题关键词词典,提取每个热点主题关键词的相关热点主题关键词,按照相关度排序并保存(假设提取按照列提取)。具体流程如下对于每个关键词通过步骤一提及的map,找到其对应的下标作为y坐标,x坐标从0到热 点主题关键词词典关键词个数遍历,然后针对每一对(x, y)在矩阵中查找,将提 取到的所有热点相关关键词计算得分SCORE(B) = min(P(B|A), P(A|B》,并且 根据其score排序,然后保存结果。数据源增量build流程本文档来自技高网
...

【技术保护点】
一种互联网热点主题相关性挖掘方法,其特征在于该方法的步骤如下:1)根据热门查询,提取热点主题关键词,组成热点主题关键词词典;2)扫描数据源,对每条记录过滤热点主题关键词对,更新在稀疏矩阵中对应的频率,同时更新每个热点主题关键 词的频率;3)采用公式SCORE(B|A)=min(P(A,B)/P(A),P(A,B)/P(B))来计算热点主题关键词A与B的相关性得分;4)将与每个热点主题关键词相关的热点主题关键词按照上述3)中的公式计算得分并排序;   5)用户查询时,按照得分降序将与该热点主题关键词相应的热点主题关键词作为结果反馈。

【技术特征摘要】
1.一种互联网热点主题相关性挖掘方法,其特征在于该方法的步骤如下1)根据热门查询,提取热点主题关键词,组成热点主题关键词词典;2)扫描数据源,对每条记录过滤热点主题关键词对,更新在稀疏矩阵中对应的频率,同时更新每个热点主题关键词的频率;3)采用公式SCORE(B|A)=min(P(A,B)/P(A),P(A,B)/P(B))来计算热点主题关键词A与B的相关性得分;4)将与每个热点主题关键词相关的热点主题关键词按照上述3)中的公式计算得分并排序;5)用户查询时,按照得分降序将与该热点主题关键词相应的热点主题关键词作为结果反馈。2. 根据权利要求l所述的一种互联网热点主题相关性挖掘方法,其特征在 于歩骤l)中,热门査询为一定时间段内用户的热点査询词,以此作为待分析 的热点主题关键词,并组成词典。3. 根据权利要...

【专利技术属性】
技术研发人员:寿黎但陈刚胡天磊陈珂汪源
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1