一种基于多维度特征的垂直搜索引擎精排方法及系统技术方案

技术编号:43900900 阅读:29 留言:0更新日期:2025-01-03 13:12
本发明专利技术涉及计算机软件技术领域,尤其是涉及一种基于多维度特征的垂直搜索引擎精排方法及系统。所述方法,包括获取召回的资源信息,基于获取的资源信息进行特征提取,包括提取资源信息的文档特征、资源热度特征、栏目特征和用户行为特征;根据提取的资源信息特征进行分类模型加权,根据提取的资源信息特征进行资源热度加权,包括设置资源热度超参数,用于调整资源热度的权重;将分类模型加权结果和资源热度加权结果进行模型整合,利用模型整合后的权重进行精排打分,根据最终的打分结果,对召回的资源进行排序。本发明专利技术通过综合考虑多维度特征,对搜索结果进行合理的加权,从而实现精准的搜索结果展示。

【技术实现步骤摘要】

本专利技术涉及计算机软件,尤其是涉及一种基于多维度特征的垂直搜索引擎精排方法及系统


技术介绍

1、垂直搜索是一种专门针对特定领域或主题的搜索引擎技术,与通用搜索引擎(如谷歌、百度)不同,垂直搜索引擎专注于索引和检索特定类型的信息,例如房地产、旅行、购物、政务服务或特定行业的数据。随着信息技术的飞速发展,搜索引擎在人们获取信息的过程中扮演着至关重要的角色。然而,传统的通用搜索引擎在面对特定领域或主题的搜索需求时,往往无法提供足够精确和相关的搜索结果,为了解决这一问题,垂直搜索引擎应运而生,垂直搜索引擎专注于特定领域或主题的信息索引和检索,能够更好地满足用户在特定领域的搜索需求。例如,在房地产、旅行、购物、政务服务等领域,垂直搜索引擎可以提供更加精准和有针对性的搜索结果。

2、在垂直搜索引擎中,bm25算法是一种常用的信息检索与网页排名算法,它通过考虑查询词在文档中出现的频率和在所有文档中出现的频率,来评估文档与用户查询的相关性。然而,传统的bm25算法在垂直搜索中存在一些局限性,例如未考虑资源热度、栏目权重和业务重点等因素,此外,特征提取是搜索本文档来自技高网...

【技术保护点】

1.一种基于多维度特征的垂直搜索引擎精排方法,其特征在于,包括:

2.根据权利要求1所述的一种基于多维度特征的垂直搜索引擎精排方法,其特征在于,所述根据提取的资源信息特征进行分类模型加权,包括通过计算每个特征在不同类别中的出现频率和卡方统计量,筛选出具有区分能力的特征,通过贝叶斯分类计算每个词在不同类别中的先验概率和后验概率,选择后验概率最大的类别作为文档的分类,所述贝叶斯分类的计算公式为:

3.根据权利要求2所述的一种基于多维度特征的垂直搜索引擎精排方法,其特征在于,所述根据提取的资源信息特征进行分类模型加权,还包括利根据栏目信息对业务的重要性设置栏目系数,通过...

【技术特征摘要】

1.一种基于多维度特征的垂直搜索引擎精排方法,其特征在于,包括:

2.根据权利要求1所述的一种基于多维度特征的垂直搜索引擎精排方法,其特征在于,所述根据提取的资源信息特征进行分类模型加权,包括通过计算每个特征在不同类别中的出现频率和卡方统计量,筛选出具有区分能力的特征,通过贝叶斯分类计算每个词在不同类别中的先验概率和后验概率,选择后验概率最大的类别作为文档的分类,所述贝叶斯分类的计算公式为:

3.根据权利要求2所述的一种基于多维度特征的垂直搜索引擎精排方法,其特征在于,所述根据提取的资源信息特征进行分类模型加权,还包括利根据栏目信息对业务的重要性设置栏目系数,通过将贝叶斯后验概率与栏目系数相乘,得到每个文档的初步权重。

4.根据权利要求3所述的一种基于多维度特征的垂直搜索引擎精排方法,其特征在于,所述根据提取的资源信息特征进行资源热度加权,包括获取搜索日志统计资源近期访问量,并设置资源热度超参数,用于调整资源热度的权重,基于资源近期访问量和热度超参数进行资源热度加权的计算,所述计算公式为:

5.根据权利要求4所述的一种基于多维度特征的垂直搜索引擎精排方法,其特征在于,所述将分类模型加权结果和资源热度加权结果进行模型整合,包括将分类模型加权得到的初步权重 作为基础权重,通过乘法运算结合资源热...

【专利技术属性】
技术研发人员:王旭东邹丰义郑艳君宋国训王建坤
申请(专利权)人:山东省大数据中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1