【技术实现步骤摘要】
本专利技术涉及计算机软件,尤其是涉及一种基于多维度特征的垂直搜索引擎精排方法及系统。
技术介绍
1、垂直搜索是一种专门针对特定领域或主题的搜索引擎技术,与通用搜索引擎(如谷歌、百度)不同,垂直搜索引擎专注于索引和检索特定类型的信息,例如房地产、旅行、购物、政务服务或特定行业的数据。随着信息技术的飞速发展,搜索引擎在人们获取信息的过程中扮演着至关重要的角色。然而,传统的通用搜索引擎在面对特定领域或主题的搜索需求时,往往无法提供足够精确和相关的搜索结果,为了解决这一问题,垂直搜索引擎应运而生,垂直搜索引擎专注于特定领域或主题的信息索引和检索,能够更好地满足用户在特定领域的搜索需求。例如,在房地产、旅行、购物、政务服务等领域,垂直搜索引擎可以提供更加精准和有针对性的搜索结果。
2、在垂直搜索引擎中,bm25算法是一种常用的信息检索与网页排名算法,它通过考虑查询词在文档中出现的频率和在所有文档中出现的频率,来评估文档与用户查询的相关性。然而,传统的bm25算法在垂直搜索中存在一些局限性,例如未考虑资源热度、栏目权重和业务重点等因素,
...【技术保护点】
1.一种基于多维度特征的垂直搜索引擎精排方法,其特征在于,包括:
2.根据权利要求1所述的一种基于多维度特征的垂直搜索引擎精排方法,其特征在于,所述根据提取的资源信息特征进行分类模型加权,包括通过计算每个特征在不同类别中的出现频率和卡方统计量,筛选出具有区分能力的特征,通过贝叶斯分类计算每个词在不同类别中的先验概率和后验概率,选择后验概率最大的类别作为文档的分类,所述贝叶斯分类的计算公式为:
3.根据权利要求2所述的一种基于多维度特征的垂直搜索引擎精排方法,其特征在于,所述根据提取的资源信息特征进行分类模型加权,还包括利根据栏目信息对业务的重要
...【技术特征摘要】
1.一种基于多维度特征的垂直搜索引擎精排方法,其特征在于,包括:
2.根据权利要求1所述的一种基于多维度特征的垂直搜索引擎精排方法,其特征在于,所述根据提取的资源信息特征进行分类模型加权,包括通过计算每个特征在不同类别中的出现频率和卡方统计量,筛选出具有区分能力的特征,通过贝叶斯分类计算每个词在不同类别中的先验概率和后验概率,选择后验概率最大的类别作为文档的分类,所述贝叶斯分类的计算公式为:
3.根据权利要求2所述的一种基于多维度特征的垂直搜索引擎精排方法,其特征在于,所述根据提取的资源信息特征进行分类模型加权,还包括利根据栏目信息对业务的重要性设置栏目系数,通过将贝叶斯后验概率与栏目系数相乘,得到每个文档的初步权重。
4.根据权利要求3所述的一种基于多维度特征的垂直搜索引擎精排方法,其特征在于,所述根据提取的资源信息特征进行资源热度加权,包括获取搜索日志统计资源近期访问量,并设置资源热度超参数,用于调整资源热度的权重,基于资源近期访问量和热度超参数进行资源热度加权的计算,所述计算公式为:
5.根据权利要求4所述的一种基于多维度特征的垂直搜索引擎精排方法,其特征在于,所述将分类模型加权结果和资源热度加权结果进行模型整合,包括将分类模型加权得到的初步权重 作为基础权重,通过乘法运算结合资源热...
【专利技术属性】
技术研发人员:王旭东,邹丰义,郑艳君,宋国训,王建坤,
申请(专利权)人:山东省大数据中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。