一种聚合相同主题网络文档的方法及系统技术方案

技术编号:2826316 阅读:247 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种聚合相同主题网络文档的方法,包括:获取当前网络文档中各词语的权重值,依次选取两个或两个以上权重值较高的词语组成检索词,利用组成的检索词检索相同主题网络文档,直至某个检索词检索的相同主题网络文档数量超过预置数值,聚合上述当前网络文档和相同主题网络文档。同时,本发明专利技术还公开一种聚合相同主题网络文档的系统。本发明专利技术解决现有技术中聚合主题相同网络文档,需处理的数据量过大,造成网络更新速度慢,影响用户的体验感的问题,本发明专利技术可提高网络更新速度,提高用户的体验感。

【技术实现步骤摘要】

本专利技术涉及网络文档聚合领域,特别是涉及一种聚合相同主题网络文档的方法及系统
技术介绍
在网络上,将相同主题的网络文档聚合在一起,提供给用户,便于用户对该主题的相关内容进行全面、细致的了解,是网络服务的一项重要内容。现有技术中,许多网站主要通过编辑,人工整理主题相同的网络文档,但人力毕竟有限,面对数据量庞大的网络资源,人工编辑显然无法全面、及时地整理相同主题的网络文档。目前,部分大型网站采用传统的分类和聚类方法,聚合相同主题的网络文档。参阅图1,示出现有聚合相同主题网络文档的方法,具体包括以下步骤。步骤S101、将网络文档按主题所属类别分类,为各类网络文档分别设置关键词库。关键词库中的关键词集中反映该类网络文档的特性。例如,以某明星为主题的网络文档,其关键词库包括该明星的姓名、主要歌曲名、主演电影名等词语。步骤S102、对新查找到的网络文档,提取该网络文档中全部词语,组成关键词库。步骤S103、将新查找网络文档的关键词库,与各类网络文档的关键词库进行匹配,选出词语匹配度最大的一个类别,新查找的网络文档与该类网络文档主题相同。例如,新查找的网络文档为有关“911”事件的报道,关键词库包括“9月11”、“恐怖分子”、“飞机”、“世贸大厦”等词语。而“911”事件类网络文档的关键词库也会包含上述各词语,因此,这两个关键词库的词语匹配度就会相对较高。步骤S104、将新查找的网络文档聚合到该类网络文档。上述方法虽然能够较好地将新查找的网络文档聚合到相同主题的网络文档,但需要对检索到的每一篇网络文档,都整理成关键词库,再与各类网络文档的关键词库匹配,网络文档一般需要细分为多个分类,这样需处理的数据量过大,造成网络更新速度慢,影响用户的体验感。-->上述方法在判断时,主要依据关键词库内的关键词,如关键词选择不当,或主题相近网络文档的关键词库中关键词大部分相同,很容易造成误判,不能准确聚合主题相同的网络文档,降低用户的体验感。
技术实现思路
本专利技术所要解决的技术问题是提供一种聚合主题相同网络文档的方法,以解决现有技术中聚合主题相同网络文档,需处理的数据量过大,造成网络更新速度慢,影响用户的体验感的问题。该方法可提高网络更新速度,提高用户的体验感。本专利技术的另一个目的是提供一种聚合主题相同网络文档的系统,该系统能够提高网络更新速度,提高用户的体验感。本专利技术一种聚合相同主题网络文档的方法,包括:获取当前网络文档中各词语的权重值,依次选取两个或两个以上权重值较高的词语组成检索词,利用组成的检索词检索相同主题网络文档,直至某个检索词检索的相同主题网络文档数量超过预置数值,聚合上述当前网络文档和相同主题网络文档。优选的,聚合上述当前网络文档和相同主题网络文档之前,还包括:使用哈希表表示当前网络文档和相同主题网络文档中各词语的向量值,依据所述各词语的向量值计算所述相同主题网络文档与当前网络文档的相关度值,去除相关度值低于预设数值的相同主题网络文档。优选的,依据所述各词语的向量值计算所述相同主题网络文档与当前网络文档的相关度值具体为,按出现频次升序排列当前网络文档和相同主题网络文档中的各词语,将相同主题网络文档中的各词语的向量值,与对应的当前网络文档的各词语的向量值分别相乘,获得的积相加,作为第一数据,将相同主题网络文档中各词语的向量值分别平方后,相加;将当前网络文档中各词语的向量值分别平方后,相加;将上述计算的和相乘,再开方,作为第二数据,所述第一数据除以所述第二数据的商,作为相同主题网络文档与当前网络文档的相关度值。优选的,依次选取两个或两个以上权重值较高的词语组成检索词具体为:将上述各词语按权重值降序排列,从首个词语开始,依次将上一词语及同该词语相临的下一词语组成检索词。-->优选的,获取当前网络文档中每个词语的权重值具体为,在当前网络文档中统计各词语的出现频次,获取各词语命中的索引文档数量和总索引文档数量,将总索引数量除以该词语命中的索引数量,再取对数,得到的数值乘以上述出现频次,得到该词语的权重值。优选的,在当前网络文档中统计各词语的出现频次具体为,获取该词语在当前网络文档中出现的位置,及在该位置的出现次数,将词语在该位置的出现次数乘以该位置对应系数,乘积相加后作为该词语的出现频次。优选的,在当前网络文档中统计各词语的出现频次具体为,统计词语在当前网络文档中出现次数,判断该词语是否在网络文档主题位置出现,如是,在该词语总出现次数上加设定数值,作为该词语的出现频次。本专利技术一种聚合相同主题网络文档的系统,包括权重值计算模块、检索词组成模块、网络文档检索模块、及聚合模块:所述权重值计算模块,用于获取当前网络文档中各词语的权重值;所述检索词组成模块,用于依次选取两个或两个以上权重值较高的词语组成检索词;所述网络文档检索模块,用于利用组成的检索词检索相同主题网络文档,直至某个检索词检索的相同主题网络文档数量超过预置数值;所述聚合模块,用于聚合上述当前网络文档和相同主题网络文档。优选的,所述检索词组成模块包括词语排列子模块和组成子模块:所述词语排列子模块,用于将上述各词语按权重值降序排列;所述组成子模块,用于从首个词语开始,依次将上一词语及同该词语相临的下一词语组成检索词。优选的,还包括向量值模块,相关度计算模块、去除模块:所述向量值模块,用于使用哈希表表示当前网络文档和相同主题网络文档中各词语的向量值;所述相关度计算模块,用于依据所述各词语的向量值计算所述相同主题网络文档与当前网络文档的相关度值;所述去除模块,用于去除相关度值低于预设数值的相同主题网络文档。与现有技术相比,本专利技术具有以下优点:本专利技术组合当前网络文档中权重值较高的词语作为检索词,检索相同主题网络文档,因权重值高的词语,具有很强的代表性,能够很好的反应当前网络文档的特性。由两个或两个以上权重值较高的词语组成的检索词检索到的网络-->文档,与当前网络文档同主题的可能性非常大。本专利技术在选取同主题网络文档的过程中,只需选取合适的词语组成检索词检索,相对与图1所示的现有技术,本专利技术不需将查找的各种网络文档与各类主题的网络文档一一对比,需处理的数据量较小,在应用过程中,网络更新速度快,有利于提高用户的体验感。附图说明图1为现有聚合相同主题网络文档的方法流程图;图2为本专利技术聚合相同主题文档的方法第一实施例流程图;图3为本专利技术计算当前网络文档中各词语的权重值的方法流程图;图4为本专利技术聚合网络相关文档的方法第二实施例流程图;图5为本专利技术聚合相同主题网络文档的系统第一实施例示意图;图6为本专利技术检索词组成模块结构示意图;图7示出本专利技术聚合相同主题网络文档的系统第二实施例示意图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。本专利技术将当前网络文档中权重值较高的词语组成检索词,利用检索词检索与当前网络文档主题相同的网络文档,将检索到的网络文档和当前网络文档聚合。本专利技术聚合相同主题网络文档的方法可应用于多个相关领域,方便用户集中阅读,如专题新闻聚合领域,专题事件聚合领域等等。参阅图2,示出本专利技术聚合相同主题文档的方法第一实施例,具体步骤如下所述。步骤S201、获取当前网络文档中各词语的权重值。将当前网络文档中各词语间本文档来自技高网
...

【技术保护点】
一种聚合相同主题网络文档的方法,其特征在于,包括:获取当前网络文档中各词语的权重值;依次选取两个或两个以上权重值较高的词语组成检索词,利用组成的检索词检索相同主题网络文档,直至某个检索词检索的相同主题网络文档数量超过预置数值;聚合上述当前网络文档和相同主题网络文档。

【技术特征摘要】
1、一种聚合相同主题网络文档的方法,其特征在于,包括:获取当前网络文档中各词语的权重值;依次选取两个或两个以上权重值较高的词语组成检索词,利用组成的检索词检索相同主题网络文档,直至某个检索词检索的相同主题网络文档数量超过预置数值;聚合上述当前网络文档和相同主题网络文档。2、如权利要求1所述的方法,其特征在于,聚合上述当前网络文档和相同主题网络文档之前,还包括:使用哈希表表示当前网络文档和相同主题网络文档中各词语的向量值;依据所述各词语的向量值计算所述相同主题网络文档与当前网络文档的相关度值;去除相关度值低于预设数值的相同主题网络文档。3、如权利要求2所述的方法,其特征在于,依据所述各词语的向量值计算所述相同主题网络文档与当前网络文档的相关度值具体为;按出现频次升序排列当前网络文档和相同主题网络文档中的各词语;将相同主题网络文档中的各词语的向量值,与对应的当前网络文档的各词语的向量值分别相乘,获得的积相加,作为第一数据;将相同主题网络文档中各词语的向量值分别平方后,相加;将当前网络文档中各词语的向量值分别平方后,相加;将上述计算的和相乘,再开方,作为第二数据;所述第一数据除以所述第二数据的商,作为相同主题网络文档与当前网络文档的相关度值。4、如权利要求1所述的方法,其特征在于,依次选取两个或两个以上权重值较高的词语组成检索词具体为:将上述各词语按权重值降序排列;从首个词语开始,依次将上一词语及同该词语相临的下一词语组成检索词。5、如权利要求1至4任一项所述的方法,其特征在于,获取当前网络文档中每个词语的权重值具体为:在当前网络文档中统计各词语的出现频次,获取各词语命中的索引文档数量和总索引文档数量;将总索引数量除以该词语命中的索引数量,再取对数...

【专利技术属性】
技术研发人员:唐年鹏王志平
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1