【技术实现步骤摘要】
说明的技术通常涉及自动地分类信息。
技术介绍
许多搜索引擎服务,例如Google和Overture,为搜索提供了通过网络可以访问的信息。这些搜索引擎服务允许用户去搜索用户感兴趣的显示页,例如网页。在用户提交了包括检索项的搜索请求后,搜索引擎服务识别可能与那些检索项相关的网页。为了快速识别相关的网页,搜索引擎服务可以保存网页的关键词的映射。这种映射可以通过“爬行”网页(也就是万维网)生成,用来识别每个网页的关键词。为了爬行该网络,搜索引擎服务可以利用根网页目录来识别所有通过那些根网页可以访问的网页。任何特定的网页的关键词能够利用各种公知的信息检索技术来识别,例如识别标题的词、在网页的元数据中提供的词、高亮的词等等。搜索引擎服务可以根据每个匹配的接近、网页普及(例如Google的PageRank)等等,生成相关分数来指出网页的信息与搜索请求有多么的相关。搜索引擎服务接着根据它们的排序的顺序,显示给用户到那些网页的链接。尽管搜索引擎服务可以返回许多网页作为搜索结果,以排序顺序出现的网页,可能很难使用户来实际发现那些用户特别感兴趣的网页。由于第一个出现的网页可能被定向 ...
【技术保护点】
一种用于分类网页的计算机系统的方法,该方法包括:检索网页;自动生成该检索到的网页的摘要;以及根据自动生成的摘要,确定该被检索到的网页的分类。
【技术特征摘要】
US 2004-4-30 10/836,3191.一种用于分类网页的计算机系统的方法,该方法包括检索网页;自动生成该检索到的网页的摘要;以及根据自动生成的摘要,确定该被检索到的网页的分类。2.如权利要求1的方法,其中摘要的自动生成包括利用多种摘要技术,计算网页的每个句子的分数。3.如权利要求2的方法,其中每个句子的分数是多种摘要技术的分数的线性组合。4.如权利要求1的方法,其中具有最高分数的句子被选择来形成摘要。5.如权利要求2的方法,其中摘要技术包括Luhn摘要技术、潜在语义分析摘要技术、内容主体摘要技术和指导摘要技术。6.如权利要求2的方法,其中摘要技术包括任意两种或更多的由Luhn摘要技术、潜在语义分析摘要技术、内容主体摘要技术和指导摘要技术组成的摘要技术的集合。7.如权利要求1的方法,其中分类的确定利用 Bayesian分类器。8.如权利要求1的方法,其中分类的确定利用支持向量装置。9.如权利要求1的方法,其中摘要的自动生成利用Luhn摘要技术。10.如权利要求1的方法,其中摘要的自动生成利用潜在语义分析摘要技术。11.如权利要求1的方法,其中摘要的自动生成利用内容主体摘要技术。12.如权利要求1的方法,其中摘要的自动生成利用指导摘要技术。13.一种用于摘要网页的计算机系统的方法,该方法包括检索网页;对于检索到的网页的每个句子,分配分数到多种摘要技术的每一个的句子;以及组合分配到该句子的分数,来生成该句子的组合分数;以及选择具有最高组合分数的句子,来形成检索到的网页的摘要。14.如权利要求13的方法,其中每个句子的组合分数是分配的分数的线性组合。15.如权利要求14的方法,其中多种摘要技术的分配的分数在组合时被不同地加权。16.如权利要求13的方法,其中摘要技术包括Luhn摘要技术、潜在语义分析摘要技术、内容主体摘要技术和指导摘要技术。17.如权利要求13的方法,其中摘要技术包括任意两种或更多的由Luhn摘要技术、潜在语义分析摘要技术、内容主体摘要技术和指导摘要技术组成的摘要技术的集合。18.如权利要求13的方法,其中摘要技术是其分类具有重要词的收集的Luhn摘要技术。19.如权利要求18的方法,其中有干扰的词从收集中被删除。20.如权利要求13的方法,其中摘要技术是其句子由包括根据在句子和网页的元数据之间的相似性的特征的特征集合来表示的指导摘要技术。21.如权利要求13的方法,其中摘要技术是其句子由包括根据在网页中被高亮的句子的词的特征的特征集合来表示的指导摘要技术。22.如权利要求13的方法,其中摘要技术是其句子由包括根据在句子中的词的字体大小...
【专利技术属性】
技术研发人员:B章,D申,HJ曾,马维英,陈正,
申请(专利权)人:微软公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。