【技术实现步骤摘要】
本专利技术涉及搜索引擎领域,特别是涉及一种基于搜索引擎的搜索结果排序 方法及装置。
技术介绍
随着搜索引擎技术的不断发展与信息处理技术的进步,人们对搜索引擎的 需求也越来越广泛,搜索引擎的种类也呈现多样化发展。目前,主流的搜索引擎分为全文搜索引擎、目录搜索引擎和元搜索引擎。近期,垂直搜索引擎也 逐渐进入了人们的视野。在搜索引擎领域,评价一个搜索引擎好坏的重要标准就是能否让用户尽快 找到所需的信息,即与用户搜索主题相关的各种信息。近年来,各大搜索引擎在搜索结果的相关性排序上均做了优化。所谓搜索 结果的相关性就是指用户搜索词和页面的相关程度。通常,相关性是搜索引擎 进行排序的一个重要依据。计算页面相关性的主要方法有google的PageRank、 Bharat的HillTop、百度的超链分析等。它们的基本原理就是根据网页的引用情 况进行排序。但是由于在中文搜索引擎中存在分词的问题,词典是以搜索词作为查询词 的搜索引擎的基础。词典的好坏在一定程度上决定着搜索结果排序的效果。词 典过小,会导致过多的无关信息的出现;词典过大,有时会导致部分词搜索结 果的主题过少等问题出现。因此如何确定词典,增加新的扩充词典集,使搜索 引擎的结果更加准确、更加人性化就随之成为一个备受关注的问题。
技术实现思路
本专利技术实施例提供一种基于搜索引擎的搜索结果排序方法及装置,使排序 结果更加贴近用户的需求。本专利技术实施例的一种基于搜索引擎的搜索结果排序方法,包括下列步骤 对用户输入的搜索词进行分词处理;以分词处理所得的分词分别在关键词索引 中进行查找,以确定所述搜索词在各待排序网络资源中 ...
【技术保护点】
一种基于搜索引擎的搜索结果排序方法,其特征在于,包括下列步骤:对用户输入的搜索词进行分词处理;以分词处理所得的分词分别在关键词索引中进行查找,以确定所述搜索词在各待排序网络资源中的关键词权重;确定所述搜索词在各待排序 网络资源中的总权重;以及按照总权重对所述各待排序的网络资源进行排序,并呈现给用户。
【技术特征摘要】
1、一种基于搜索引擎的搜索结果排序方法,其特征在于,包括下列步骤对用户输入的搜索词进行分词处理;以分词处理所得的分词分别在关键词索引中进行查找,以确定所述搜索词在各待排序网络资源中的关键词权重;确定所述搜索词在各待排序网络资源中的总权重;以及按照总权重对所述各待排序的网络资源进行排序,并呈现给用户。2、 如权利要求1所述的方法,其特征在于,在用户输入搜索词进行搜索 之前还包括以词和词的属性作为基本结构,定制关键词词典的步骤;定制的 关键词词典中包括各有效词和每一有效词对应的属性,以及各无效词和每一无 效词对应的属性。3、 如权利要求2所述的方法,其特征在于,所述无效词的集合与有效词 的集合互为互斥关系。4、 如权利要求3所述的方法,其特征在于, 一个所述无效词包含的字符 覆盖一个有效词包含的字符。5、 如权利要求2所述的方法,其特征在于,所述词的属性以字符型数字 表示,每一位字符分别表示所述词的一种属性。6、 如权利要求2所述的方法,其特征在于,在用户输入搜索词进行搜索 之前还包括依据关键:词词典,按最大匹配原则对每一网络资源的主题信息进 行分词处理;根据分词处理所得分词的属性对该分词进行过滤,以提取每一网 络资源的主题信息的关键词。7、 如权利要求1所述的方法,其特征在于,在用户输入搜索词进行搜索 之前还包括分别对每一 网络资源的主题信息的各关键词进行分词处理; 建立关键词的各分词到网络资源的关键词索引。8、 如权利要求7所述的方法,其特征在于,还包括配置权重的步骤,其中包括根据关键词的各分词词长占该关键词词长的比例,为各分词分别配置分词权重;或者根据网络资源的信息,为该网络资源配置静态权重,并根据关键词的各分 词词长占该关键词词长的比例,为各分词分别配置分词权重。9、 如权利要求8所述的方法,其特征在于,所述网络资源的信息包括 被浏览次数和/或被引用情况和/或被下载次数和/或文件格式和/或文件大小。10、 如权利要求l所述的方法,其特征在于,将以分词处理所得分词分别 在关键词索引中进行查找,以确定每一分词在各待排序网络资源的主题信息的 关键词中的分词权重;将各分词在同 一待排序网络资源的主题信息中的分词权重相加,作为所述 搜索词在该待排序网络资源中的关键词权重。11、 如权利要求10所述的方法,其特征在于,所述总权重至少包括搜 索词在所述待排序网络资源中的关键词权重。12、 如权利要求10所述的方法,其特征在于,确定所述搜索词在各待排 序网络资源中的总权重,包括下列步骤取根据当前待排序网络资源的信息配置的静态权重; 取所述搜索词在当前待排序网络资源中的关键词权重; 将当前待排序网络资源的静态权重与关键词权重组合成当前待排序网络 资源的总权重。13、 如权利要求12所述的方法,其特征在于,当前待排序网络资源的总 权重为W(docid)=ql*Ws(docid)+q2*Wk(docid),其中,doc...
【专利技术属性】
技术研发人员:刘汉洲,
申请(专利权)人:深圳市迅雷网络技术有限公司,
类型:发明
国别省市:94[中国|深圳]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。