一种基于搜索引擎的搜索结果排序方法及装置制造方法及图纸

技术编号:2831818 阅读:247 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于搜索引擎的搜索结果排序方法及装置,涉及搜索引擎领域,使排序结果更加贴近用户的需求。方法包括:对用户输入的搜索词进行分词处理;以分词处理所得的分词分别在关键词索引中进行查找,以确定所述搜索词在各待排序网络资源中的关键词权重;确定所述搜索词在各待排序网络资源中的总权重;以及按照总权重对所述各待排序的网络资源进行排序,并呈现给用户。装置包括:分词单元、关键词权重确定单元、总权重确定单元、排序单元和呈现单元。

【技术实现步骤摘要】

本专利技术涉及搜索引擎领域,特别是涉及一种基于搜索引擎的搜索结果排序 方法及装置。
技术介绍
随着搜索引擎技术的不断发展与信息处理技术的进步,人们对搜索引擎的 需求也越来越广泛,搜索引擎的种类也呈现多样化发展。目前,主流的搜索引擎分为全文搜索引擎、目录搜索引擎和元搜索引擎。近期,垂直搜索引擎也 逐渐进入了人们的视野。在搜索引擎领域,评价一个搜索引擎好坏的重要标准就是能否让用户尽快 找到所需的信息,即与用户搜索主题相关的各种信息。近年来,各大搜索引擎在搜索结果的相关性排序上均做了优化。所谓搜索 结果的相关性就是指用户搜索词和页面的相关程度。通常,相关性是搜索引擎 进行排序的一个重要依据。计算页面相关性的主要方法有google的PageRank、 Bharat的HillTop、百度的超链分析等。它们的基本原理就是根据网页的引用情 况进行排序。但是由于在中文搜索引擎中存在分词的问题,词典是以搜索词作为查询词 的搜索引擎的基础。词典的好坏在一定程度上决定着搜索结果排序的效果。词 典过小,会导致过多的无关信息的出现;词典过大,有时会导致部分词搜索结 果的主题过少等问题出现。因此如何确定词典,增加新的扩充词典集,使搜索 引擎的结果更加准确、更加人性化就随之成为一个备受关注的问题。
技术实现思路
本专利技术实施例提供一种基于搜索引擎的搜索结果排序方法及装置,使排序 结果更加贴近用户的需求。本专利技术实施例的一种基于搜索引擎的搜索结果排序方法,包括下列步骤 对用户输入的搜索词进行分词处理;以分词处理所得的分词分别在关键词索引 中进行查找,以确定所述搜索词在各待排序网络资源中的关键词权重;确定所 述搜索词在各待排序网络资源中的总权重;以及按照总权重对所述各待排序的 网络资源进行排序,并呈现给用户。本专利技术实施例的一种基于搜索引擎的搜索结果排序装置,包括分词单元, 用于对用户输入的搜索词进行分词处理;关键词权重确定单元,用于以分词处 理所得分词分别在关键词索引中进行查找,以确定所述搜索词在各待排序网络 资源中的关键词权重;总权重确定单元,用于确定所述搜索词在各待排序网络 资源中的总权重;排序单元,用于按照总权重对所述各待排序的网络资源进行 排序;呈现单元,用于向用户呈现排序结果。综上所述,本专利技术实施例中对用户输入的搜索词进行分词处理;以分词处 理所得的分词分别在关键词索引中进行查找,以确定所述搜索词在各待排序网 络资源中的关键词权重,并确定所述搜索词在各待排序网络资源中的总权重。 由于总权重中考虑了搜索词与关键词的匹配等情况,所以按照总权重对所述各 待排序的网络资源进行排序并呈现给用户,可更加贴近用户的需求。附图说明图1为本专利技术实施例的方法步骤流程图;图2为本专利技术实施例的装置结构示意图;图3为本专利技术实施例的装置优化结构示意图;图4为本专利技术实施例的索引示意图;图5为本专利技术实施例中确定待排序网络资源的示意图;图6为本专利技术实施例中查询分词权重的示意图。具体实施方式为了使排序结果更加贴近用户的需求,本专利技术实施例提供了 一种基于搜索 引擎的搜索结果排序方法及装置,以下分别简要概述。本专利技术实施例提供的一种基于搜索引擎的搜索结果排序方法,在进行了 一 些预先设置,用户输入搜索词,并且确定了待排序网络资源之后,参见图l所示,执行下列主要步骤51、 对用户输入的搜索词进行分词处理(本步骤也可在确定待排序网络资 源之前执行)。52、 以分词处理所得的分词分别在关键词索引中进行查找,以确定所述搜中的关键词权重。53、 确定所述搜索词在各待排序网络资源中的总权重。54、 按照总权重对所述各待排序的网络资源进行排序,并呈现给用户。 在用户输入搜索词进行搜索之前,预先的设置步骤,具体包括 定制关键词词典的步骤以词和词的属性作为基本结构,定制的关键词词典中包括各有效词和每一有效词对应的属性,以及各无效词和每一无效词对应 的属性。所述无效词的集合与有效词的集合互为互斥关系,并且一个无效词包 含的字符覆盖一个有效词包含的字符。所述词的属性以字符型数字表示,每一 位字符分别表示所述词的一种属性。提取关键词的步骤依据关键词词典,按最大匹配原则对每一网络资源的 主题信息进行分词处理;根据分词处理所得分词的属性对该分词进行过滤,以 提取每一网络资源的主题信息的关键词。其中,以网页的标题作为该网页的主题信息,或者从网页的内容中提取该网页的主题信息,或者以描述下载资源的 信息作为主题信息等。建立关键词索引的步骤分别对每一网络资源的主题信息的各关键词采用基础分词词典进行分词处理,并建立关键词的各分词到网络资源的关键词索 引。建立资源索引的步骤根据基础分词词典对网络资源的主题信息进行分词 处理,并建立网络资源的各分词到网络资源的资源索引。配置权重的步骤根据关键词的各分词词长占该关键词词长的比例,为各 分词分别配置分词权重;或者根据网络资源的信息(包括但不限于被浏览次 数和/或被引用情况和/或被下载次数和/或文件格式,以下不再赘述),为该网 络资源配置静态权重,以及根据关键词的各分词词长占该关键词词长的比例, 为各分词分别配置分词权重。配置的权重可记录在上述资源索引和关^t词索引 中。配置权重后在S2中,可将对搜索词进行分词处理所得分词分别在关键词 索引中进行查找,以确定每一分词在各待排序网络资源的主题信息的关键词中 的分词权重,并将各分词在同 一待排序网络资源的主题信息中的分词权重相 加,作为搜索词在该待排序网络资源中的关4定词权重。在S3中,可取搜索词 在当前待排序网络资源中的关键词权重作为总权重;也可取根据当前待排序网 络资源的信息配置的静态权重和搜索词在当前待排序网络资源中的关键词权 重,并将该静态权重与关键词权重组合成当前待排序网络资源的总权重;或者 以其它相关权重与关键词权重组合成当前待排序网络资源的总权重。在用户输入搜索词进行搜索之后,确定待排序网络资源具体以对搜索词进 行分词处理所得分词分别在资源索引中进行查找,以分别确定每一分词所属的 网络资源的集合;取各所述集合的交集,作为待排序的网络资源。本专利技术实施例还提供了一种基于搜索引擎的搜索结果排序装置,参见图2 所示,其包括分词单元、关键词权重确定单元、总权重确定单元、排序单元 和呈现单元。分词单元,用于对用户输入的搜索词进^f亍分词处理。 关键词权重确定单元,用于以分词处理所得分词分别在关键词索引中进行 查找,以确定所述搜索词在各待排序网络资源中的关键词权重。总权重确定单元,用于确定所述搜索词在各待排序网络资源中的总权重。 排序单元,用于按照总权重对所述各待排序的网络资源进行排序。 呈现单元,用于向用户呈现排序结果。进一步为了提供上述单元所需的信息,参见图3所示,所述装置还包括 定制单元、提取单元、关键词索引建立单元、资源索引建立单元、确定单元和 配置单元。定制单元,用于以词和词的属性作为基本结构,定制关键词词典;定制的 关键词词典中包括各有效词和每一有效词对应的属性,以及各无效词和每一无 效词对应的属性。提取单元,用于依据关键词词典,按最大匹配原则对每一网络资源的主题 信息进行分词处理;根据分词处理所得分词的属性对该分词进行过滤,以提取 每一 网络资源的主题信息的关键词。关键词索51建立单元,用于根据基础分本文档来自技高网...

【技术保护点】
一种基于搜索引擎的搜索结果排序方法,其特征在于,包括下列步骤:对用户输入的搜索词进行分词处理;以分词处理所得的分词分别在关键词索引中进行查找,以确定所述搜索词在各待排序网络资源中的关键词权重;确定所述搜索词在各待排序 网络资源中的总权重;以及按照总权重对所述各待排序的网络资源进行排序,并呈现给用户。

【技术特征摘要】
1、一种基于搜索引擎的搜索结果排序方法,其特征在于,包括下列步骤对用户输入的搜索词进行分词处理;以分词处理所得的分词分别在关键词索引中进行查找,以确定所述搜索词在各待排序网络资源中的关键词权重;确定所述搜索词在各待排序网络资源中的总权重;以及按照总权重对所述各待排序的网络资源进行排序,并呈现给用户。2、 如权利要求1所述的方法,其特征在于,在用户输入搜索词进行搜索 之前还包括以词和词的属性作为基本结构,定制关键词词典的步骤;定制的 关键词词典中包括各有效词和每一有效词对应的属性,以及各无效词和每一无 效词对应的属性。3、 如权利要求2所述的方法,其特征在于,所述无效词的集合与有效词 的集合互为互斥关系。4、 如权利要求3所述的方法,其特征在于, 一个所述无效词包含的字符 覆盖一个有效词包含的字符。5、 如权利要求2所述的方法,其特征在于,所述词的属性以字符型数字 表示,每一位字符分别表示所述词的一种属性。6、 如权利要求2所述的方法,其特征在于,在用户输入搜索词进行搜索 之前还包括依据关键:词词典,按最大匹配原则对每一网络资源的主题信息进 行分词处理;根据分词处理所得分词的属性对该分词进行过滤,以提取每一网 络资源的主题信息的关键词。7、 如权利要求1所述的方法,其特征在于,在用户输入搜索词进行搜索 之前还包括分别对每一 网络资源的主题信息的各关键词进行分词处理; 建立关键词的各分词到网络资源的关键词索引。8、 如权利要求7所述的方法,其特征在于,还包括配置权重的步骤,其中包括根据关键词的各分词词长占该关键词词长的比例,为各分词分别配置分词权重;或者根据网络资源的信息,为该网络资源配置静态权重,并根据关键词的各分 词词长占该关键词词长的比例,为各分词分别配置分词权重。9、 如权利要求8所述的方法,其特征在于,所述网络资源的信息包括 被浏览次数和/或被引用情况和/或被下载次数和/或文件格式和/或文件大小。10、 如权利要求l所述的方法,其特征在于,将以分词处理所得分词分别 在关键词索引中进行查找,以确定每一分词在各待排序网络资源的主题信息的 关键词中的分词权重;将各分词在同 一待排序网络资源的主题信息中的分词权重相加,作为所述 搜索词在该待排序网络资源中的关键词权重。11、 如权利要求10所述的方法,其特征在于,所述总权重至少包括搜 索词在所述待排序网络资源中的关键词权重。12、 如权利要求10所述的方法,其特征在于,确定所述搜索词在各待排 序网络资源中的总权重,包括下列步骤取根据当前待排序网络资源的信息配置的静态权重; 取所述搜索词在当前待排序网络资源中的关键词权重; 将当前待排序网络资源的静态权重与关键词权重组合成当前待排序网络 资源的总权重。13、 如权利要求12所述的方法,其特征在于,当前待排序网络资源的总 权重为W(docid)=ql*Ws(docid)+q2*Wk(docid),其中,doc...

【专利技术属性】
技术研发人员:刘汉洲
申请(专利权)人:深圳市迅雷网络技术有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1