一种学术搜索排序方法、装置、电子设备及存储介质制造方法及图纸

技术编号:31610177 阅读:16 留言:0更新日期:2021-12-29 18:38
本发明专利技术提供一种学术搜索排序方法、装置、电子设备及存储介质,所述方法包括:获取用户输入的搜索词;根据搜索词的文本内容,基于预先根据多种索引方式存储的资源融合数据,生成搜索词的搜索结果;根据搜索词的文本长度,基于预先根据BM25算法和高斯函数设定的多个相关度优先排序方式,确定搜索结果的优先排序方式;根据相关度优先排序方式以及所述搜索词和搜索结果之间的相关度,获取搜索结果的排序结果。本发明专利技术提供的方法能够满足不同用户的搜索需求,提高学术搜索的准确性、全面性,提升用户体验。体验。体验。

【技术实现步骤摘要】
一种学术搜索排序方法、装置、电子设备及存储介质


[0001]本专利技术涉及信息检索
,更具体地说,涉及一种学术搜索排序方法、装置、电子设备及存储介质。

技术介绍

[0002]随着互联网的迅速发展,基于HTTP协议的Web服务越来越普及,互联网上的资源和信息量剧增,用户产生了根据自己的个性化信息来寻找分布在互联网上各个位置的资源的需求。
[0003]传统的学术搜索引擎例如GoogleScholar、MicrosoftAcademic Search、百度学术搜索等具有较完备的根据文本内容在文档索引库中进行匹配并查找相关内容的功能,但是,由于索引主要根据检索内容的文本相关度来建立,如BM25算法是一种用来衡量搜索引擎查询与被查询到的文本信息相关度的方法,该算法在搜索引擎结果排序过程中经常作为重要特征参与计算。但是,BM25算法基于短文本检索优先的原则进行召回结果排序,此算法排序结果无法满足用户以某个关键技术或研究领域进行应用或技术扩展检索的需求。因此,对于一些与检索内容紧密相关,但是并不直接具有较高文本相关度的文档,BM25算法机制中很大概率上会被忽略,造成搜索结果的不完备,不准确。

技术实现思路

[0004]本专利技术提供一种学术搜索排序方法、装置、电子设备及存储介质,用以解决现有技术中采用短文本检索优先的方式造成搜索结果不完备、不准确的技术问题,以实现提高学术搜索的准确性、全面性以及个性化查询的目的。
[0005]第一方面,本专利技术提供一种学术搜索排序方法,包括:
[0006]获取用户输入的搜索词;
[0007]根据所述搜索词的文本内容,基于预先根据多种索引方式存储的资源融合数据,获取所述搜索词的搜索结果;
[0008]根据所述搜索词的文本长度,基于预先根据BM25算法和高斯函数设定的多个相关度优先排序方式,确定所述搜索结果对应的相关度优先排序方式;
[0009]根据所述相关度优先排序方式以及所述搜索词和搜索结果的相关度,获取所述搜索结果的排序结果;
[0010]其中,所述资源融合数据是指不同结构类型数据进行关联后得到的数据。
[0011]第二方面,本专利技术提供一种学术搜索引擎装置,其特征在于,包括:
[0012]第一获取模块,用于获取用户输入的搜索词;
[0013]第一获取模块,用于根据所述搜索词的文本内容,基于预先根据多种索引方式存储的资源融合数据,获取所述搜索词的搜索结果;
[0014]确定模块,用于根据所述搜索词的文本长度,基于预先根据BM25算法和高斯函数设定的多个相关度优先排序方式,确定所述搜索结果对应的相关度优先排序方式;
[0015]第三获取模块,用于根据所述相关度优先排序方式以及所述搜索词和搜索结果之间的相关度,获取所述搜索结果的排序结果;
[0016]其中,所述资源融合数据是指不同结构类型数据进行关联后得到的数据。
[0017]第三方面,本专利技术还提供一种电子设备,包括:
[0018]处理器、存储器和总线,其中,
[0019]所述处理器和所述存储器通过所述总线完成相互间的通信;
[0020]所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上述中任一所述的方法。
[0021]第四方面,本专利技术还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上述中任一所述的方法。
[0022]本专利技术提供一种学术搜索排序方法、装置、电子设备及存储介质,方法包括:获取用户输入的搜索词,根据所述搜索词的文本内容,基于预先根据多种索引方式存储的资源融合数据,获取所述搜索词的搜索结果,根据所述搜索词的文本长度,基于预先根据BM25算法和高斯函数设定的多个相关度优先排序方式,确定所述搜索结果对应的相关度优先排序方式,根据所述相关度优先排序方式以及所述搜索词和搜索结果之间的相关度,获取所述搜索结果的排序结果。本专利技术提供的方法能够针对用户输入不同文本长度的搜索词,匹配相应的算法模块,得到相应的搜索结果,提高了学术搜索的准确性、全面性,提升用户体验。
附图说明
[0023]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1为本专利技术提供的一种学术搜索排序方法的流程示意图;
[0025]图2为本专利技术提供的基于ABM25算法的学术搜索排序的总流程示意图;
[0026]图3为本专利技术提供的一种学术搜索引擎排序装置的结构示意图;
[0027]图4为本专利技术提供的电子设备的结构示意图。
具体实施方式
[0028]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029]图1为本专利技术提供的一种学术搜索排序方法的流程示意图。如图1所示,本专利技术提供的学术搜索排序方法,包括以下步骤:
[0030]步骤101:获取用户输入的搜索词;
[0031]步骤102:根据所述搜索词的文本内容,基于预先根据多种索引方式存储的资源融合数据,获取所述搜索词的搜索结果;
[0032]步骤103:根据所述搜索词的长度,基于预先根据BM25算法和高斯函数设定的多个相关度优先排序方式,获取所述搜索结果对应的相关度优先排序方式;
[0033]步骤104:根据所述相关度优先排序方式以及所述搜索词和搜索结果之间的相关度,获取所述搜索结果的排序结果;
[0034]其中,所述资源融合数据是指不同结构类型数据进行关联后得到的数据。
[0035]具体地,BM25算法通过加入文档权值和查询权值,拓展了二元独立模型的得分函数。
[0036]其中,学术搜索排序方法是在智能搜索引擎中实现的,智能搜索引擎是指能实现搜索词的推理和智能扩检,且搜索结果的个性化排序、跨资源图谱推荐以及资源相关度排序的搜索引擎。其中,相关度是指搜索请求和搜索结果之间的关联程度。
[0037]在步骤102中,根据输出搜索词的文本内容,基于预先存储的资源融合数据得到搜索词的搜索结果,其中,资源融合数据是以多种索引形式实现对数据的存储,多种索引形式可以是全文索引、元数据索引以及影图索引等,在此不作具体限定。
[0038]在步骤103中,预先在智能搜索引擎中,根据BM25算法和高斯函数的不同参数,得到多个不同的相关度优先排序方式,其中,BM25算法中包含三个自由调节参数,除了调节因子b外,还有针对词频的调节因子k1和k2,根据不同的参数值得到多种相关度优先排序方式。本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种学术搜索排序方法,其特征在于,包括:获取用户输入的搜索词;根据所述搜索词的文本内容,基于预先根据多种索引方式存储的资源融合数据,获取所述搜索词的搜索结果;根据所述搜索词的文本长度,基于预先根据BM25算法和高斯函数设定的多个相关度优先排序方式,确定所述搜索结果对应的相关度优先排序方式;根据所述相关度优先排序方式以及所述搜索词和搜索结果之间的相关度,获取所述搜索结果的排序结果;其中,所述资源融合数据是指不同结构类型数据进行关联后得到的数据。2.根据权利要求1所述的学术搜索排序方法,其特征在于,所述方法还包括:基于学术资源个性化推荐方式,根据所述用户的个性化影响因子,生成搜索结果的个性化推荐的排序结果;其中,所述学术资源个性化推荐方式是指用于学术领域中根据用户的搜索习惯实现个性化推荐的一种方式。3.根据权利要求1所述的学术搜索排序方法,其特征在于,所述基于预先根据多种索引方式存储的资源融合数据,生成所述搜索词的搜索结果之前,方法还包括:S1:获取待处理资源数据;S2:对所述待处理资源数据按照结构化、半结构化以及非结构化数据类型进行提取和属性映射处理,得到第一资源融合数据;S3:根据学术资源质量评估的评估因子,对所述第一资源融合数据进行质量评估处理,得到第二资源融合数据;S4:根据所述第二资源融合数据,构建全文索引、元数据索引和影图索引。4.根据权利要求3所述的学术搜索排序方法,其特征在于,所述对所述资源数据按照结构化、半结构化以及非结构化数据类型进行提取和属性映射处理之前,包括:对所述资源数据进行数据清洗处理。5.根据权利要求1所述的学术搜索排序方法,其特征在于,所述多个相关度优先排序方式包括短文本相关度优先排序方式、长文本相关度优先排序方式和均值文本相关度优先排序方式,相应的,所述根据所述搜索词的文本长度,基于预先根据BM25算法和高斯函数设定的多个相关度优先排序方式,确定所述搜索结果对应的相关度优先排序方式,具体包括:当所述搜索词的文本长度小于或等于第一预设阈值时,确定所述搜索结果的相关度优先排序...

【专利技术属性】
技术研发人员:李林曹建飞巴宗岳郑超
申请(专利权)人:浪潮软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1