主题词的相关性处理方法及系统、主题词推荐方法及系统技术方案

技术编号:10053834 阅读:236 留言:0更新日期:2014-05-16 02:32
本发明专利技术提出一种主题词的相关性处理方法及系统、主题词推荐方法及系统,其网页主题词的相关性处理方法包括:从多个网页中提取多个主题词,并形成对象词库;从多个网页中获取网页内容数据,并形成源数据库;统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数;统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数;按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值。本发明专利技术可以大大提高主题词相关性计算的准确性。

【技术实现步骤摘要】
【专利摘要】本专利技术提出一种主题词的相关性处理方法及系统、主题词推荐方法及系统,其网页主题词的相关性处理方法包括:从多个网页中提取多个主题词,并形成对象词库;从多个网页中获取网页内容数据,并形成源数据库;统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数;统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数;按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值。本专利技术可以大大提高主题词相关性计算的准确性。【专利说明】主题词的相关性处理方法及系统、主题词推荐方法及系统
本专利技术涉及网络与计算机的
,特别涉及一种主题词的相关性处理方法及系统、主题词推荐方法及系统。
技术介绍
网络信息的指数爆炸给用户浏览和筛选自己感兴趣的网页造成了巨大障碍,这称之为“信息过载”。如何更好地对这些网页进行挖掘、提取、组织成为重要话题。主题词提取作为一种凸显网页核心内容的有效组织手段被广泛利用。主题词提取解决了单个网页的组织问题,另一方面,通过何种手段将这么多网页关联起来以便于用户浏览及推荐阅读也显得日益重要。主题词相关性计算能够找出彼此语义相近的主题词以及它们包含的网页集合,从而达到了聚合及关联网页的目的。目前有采用互信息(Mutual information)来计算词之间的相关性,它主要利用了两个词之间的共现次数,互信息值越大表示两者越相关,其公式如下:【权利要求】1.一种网页主题词的相关性处理方法,其特征在于,包括: 从多个网页中提取多个主题词,并形成对象词库; 从多个网页中获取网页内容数据,并形成源数据库; 统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数; 统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数; 按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值。2.如权利要求1所述的网页主题词的相关性处理方法,其特征在于,所述计算每两个主题词之间的相关性数值的步骤之前包括:对统计得到的所述出现过的网页数以及所述共现网页数中没有意义的数值进行过滤。3.如权利要求2所述的网页主题词的相关性处理方法,其特征在于,所述对所述对象词库中没有计算意义的主题词进行过滤的步骤包括:将出现过的网页数少于预设阈值的主题词进行去除。4.一种主题词推荐方法,其特征在于,包括: 从多个网页中提取多个主题词,并形成对象词库; 从多个网页中获取网页内容数据,并形成源数据库; 统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数; 统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数; 按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值; 将用户输入的主题词与所述对象词库中的其它主题词按照相关性数值进行排序; 将与所述用户输入的主题词最相关的预设数量个主题词作为推荐词返回给用户。5.如权利要求4所述的主题词推荐方法,其特征在于,所述计算每两个主题词之间的相关性数值的步骤之前包括:对统计得到的所述出现过的网页数以及所述共现网页数中没有意义的数值进行过滤。6.如权利要求5所述的主题词推荐方法,其特征在于,所述对所述对象词库中没有计算意义的主题词进行过滤的步骤包括:将出现过的网页数少于预设阈值的主题词进行去除。7.一种网页主题词的相关性处理系统,其特征在于,包括: 主题词提取单元,用于从多个网页中提取多个主题词; 对象词库,用于存放所述主题词提取单元提取出的并要作相关性计算的主题词; 网页数据获取单元,用于从多个网页中获取网页内容数据; 源数据库,用于存放所述网页数据获取单元获取的作为相关性计算参照基础的网页内容数据; 出现次数统计单元,用于统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数; 共现次数统计单元,用于统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数; 计算单元,用于按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值。8.如权利要求7所述的网页主题词的相关性处理系统,其特征在于,还包括: 过滤单元,用于在所述计算单元计算每两个主题词之间的相关性数值之前,对统计得到的所述出现过的网页数以及所述共现网页数中没有意义的数值进行过滤。9.如权利要求8所述的网页主题词的相关性处理系统,其特征在于,所述过滤单元通过将出现过的网页数少于预设阈值的主题词进行去除,来实现对统计得到的所述出现过的网页数以及所述共现网页数中没有意义的数值进行过滤。10.一种主题词推荐系统,其特征在于,包括: 主题词提取单元,用于从多个网页中提取多个主题词; 对象词库,用于存放所述主题词提取单元提取出的并要作相关性计算的主题词; 网页数据获取单元,用于从多个网页中获取网页内容数据; 源数据库,用于存放所述网页数据获取单元获取的作为相关性计算参照基础的网页内容数据; 出现次数统计单元,用于统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数;`` 共现次数统计单元,用于统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数; 计算单元,用于按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值; 接收单元,用于接收用户输入的需要进行推荐的主题词; 排序单元,用于将用户输入的主题词与所述对象词库中的其它主题词按照相关性数值进行排序; 反馈单元,用于将与所述用户输入的主题词最相关的预设数量个主题词作为推荐词返回给用户。11.如权利要求10所述的主题词推荐系统,其特征在于,还包括: 过滤单元,用于在所述计算单元计算每两个主题词之间的相关性数值之前,对统计得到的所述出现过的网页数以及所述共现网页数中没有意义的数值进行过滤。12.如权利要求11所述的主题词推荐系统,其特征在于,所述过滤单元通过将出现过的网页数少于预设阈值的主题词进行去除,来实现对统计得到的所述出现过的网页数以及所述共现网页数中没有意义的数值进行过滤。【文档编号】G06F17/30GK103793387SQ201210420758【公开日】2014年5月14日 申请日期:2012年10月29日 优先权日:2012年10月29日 【专利技术者】蔡兵 申请人:腾讯科技(深圳)有限公司本文档来自技高网...
主题词的相关性处理方法及系统、主题词推荐方法及系统

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:蔡兵
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1