一种基于相关性和重要性的文献搜索排序方法及电子设备技术

技术编号:35870363 阅读:13 留言:0更新日期:2022-12-07 11:05
本发明专利技术实施例公开了一种基于相关性和重要性的文献搜索排序方法及电子设备。方法包括:获取用户输入的待搜索数据;根据所述待搜索数据计算相关性排序指标;计算重要性排序指标;根据所述相关性排序指标、重要性排序指标和算法公式得到文章最终评分;根据所述文章最终评分进行搜索结果排序。实施本发明专利技术实施例,在学术文献搜索排序中,综合考虑了文章的相关性和重要性,并将两者进行有机结合后提出了一种综合性的排序算法。基于该排序算法所得到的文章搜索排序结果更加符合用户的预期。文章搜索排序结果更加符合用户的预期。文章搜索排序结果更加符合用户的预期。

【技术实现步骤摘要】
一种基于相关性和重要性的文献搜索排序方法及电子设备


[0001]本专利技术涉及文献搜索
,具体涉及一种基于相关性和重要性的文献搜索排序方法及电子设备。

技术介绍

[0002]在文献搜索领域,一般是基于词袋模型(例如TF

IDF)来评估文章的相关性以进行排序展示。用户一般会对近期发表的文章比较感兴趣,同时会更关注学术影响力较强的文章,如有只采用词袋模型进行文献搜索时,所得到的文献搜索结果的排序和用户上述的预期会产生一定偏差,无法满足用户需求。
[0003]此外,在实际研究中,本申请专利技术人发现:用户所键入的检索词或者句子在分词后形成多个词,这些词的位置和顺序在实际搜索时却并没被词袋模型所考虑。但这一点在全文检索中尤其重要。

技术实现思路

[0004]针对现有技术存在的上述缺陷,本专利技术实施例的目的在于提供一种基于相关性和重要性的文献搜索排序方法及电子设备。
[0005]为实现上述目的,第一方面,本专利技术实施例提供了一种基于相关性和重要性的文献搜索排序方法,包括:
[0006]获取用户输入的待搜索数据;
[0007]根据所述待搜索数据计算相关性排序指标;
[0008]计算重要性排序指标;
[0009]根据所述相关性排序指标、重要性排序指标和算法公式得到文章最终评分;
[0010]根据所述文章最终评分进行搜索结果排序。
[0011]作为本申请的一种具体实施方式,所述相关性排序指标包括BM25算法的评分、搜索词的近邻关系累计评分;根据所述待搜索数据计算相关性排序指标具体为:
[0012]基于BM25算法,采用Elasticsearch引擎对所述待搜索数据进行处理,得到BM25算法的评分;
[0013]采用Elasticsearch引擎对所述待搜索数据进行处理,得到搜索词的近邻关系累计评分。
[0014]其中,近邻关系累计评分通过elasticsearch引擎的脚本评分进行自定义实现,每个词出现的位置可通过配置elasticsearch引擎的term_vector中的with_position_offsets获得,每个搜索词的逆文档频率可通过elasticsearch引擎的_termverctor接口获得。
[0015]作为本申请的一种具体实施方式,所述重要性排序指标包括文章学术影响力评分、文章类型评分和时间衰减因子,计算重要性排序指标具体为:
[0016]采用neo4j的插件计算文章学术影响力评分;
[0017]采用Elasticsearch引擎所提供的脚本评分计算时间衰减因子。
[0018]在本申请的某些具体实施方式中,所述算法公式表示为:
[0019]Score
Final
=k0×
Score
Relevance
×
DecayFactor+k1×
Score
ArticleRank
+k2×
Score
docType
[0020]其中,Score
Final
为文章最终评分;Score
Relevance
为文章与用户所输入的搜索词、短语、句子之间的经规范化的相关性评分,范围为[0,100];Score
ArticleRank
为文章学术影响力评分;Score
docType
为文章类型评分;DecayFactor为时间衰减因子;k0、k1和k2为待定系数。
[0021]其中,待定系数的计算过程为:
[0022]确定所述待定系数的初始值;
[0023]收集分析用户搜索行为日志,得到搜索结果的点击特征数据和评分结果数据;
[0024]基于多元线性回归方式,根据所述点击特征数据和评分结果数据对所述初始值进行优化,得到优化值;
[0025]根据所述初始值和优化值得到所述待定系数的目标值。
[0026]基于相同的专利技术构思,本专利技术实施例提供了一种电子设备,包括:
[0027]获取单元,用于获取用户输入的待搜索数据;
[0028]第一计算单元,用于根据所述待搜索数据计算相关性排序指标;
[0029]第二计算单元,用于计算重要性排序指标;
[0030]评分单元,用于根据所述相关性排序指标、重要性排序指标和算法公式得到文章最终评分;
[0031]排序单元,用于根据所述文章最终评分进行搜索结果排序。
[0032]在本申请的某些具体实施方式中,所述相关性排序指标包括BM25算法的评分、搜索词的近邻关系累计评分;所述第一计算单元用于:
[0033]基于BM25算法,采用Elasticsearch引擎对所述待搜索数据进行处理,得到BM25算法的评分;
[0034]采用Elasticsearch引擎对所述待搜索数据进行处理,得到搜索词的近邻关系累计评分;
[0035]其中,近邻关系累计评分通过elasticsearch引擎的脚本评分进行自定义实现,每个词出现的位置可通过配置elasticsearch引擎的term_vector中的with_position_offsets获得,每个搜索词的逆文档频率可通过elasticsearch引擎的_termverctor接口获得。
[0036]第三方面,本专利技术实施例还提供了另一种电子设备,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
[0037]实施本专利技术实施例,在学术文献搜索排序中,综合考虑了文章的相关性和重要性,并将两者进行有机结合后提出了一种综合性的排序算法。基于该排序算法所得到的文章搜索排序结果更加符合用户的预期。
附图说明
[0038]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体
实施方式或现有技术描述中所需要使用的附图作简单地介绍。
[0039]图1是本专利技术实施的原理流程图;
[0040]图2是本专利技术实施例提供的基于相关性和重要性的文献搜索排序方法的流程图;
[0041]图3是搜索排序结果图;
[0042]图4是本专利技术第一实施例提供的电子设备的结构图;
[0043]图5是本专利技术第二实施例提供的电子设备的结构图。
具体实施方式
[0044]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0045]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于相关性和重要性的文献搜索排序方法,其特征在于,包括:获取用户输入的待搜索数据;根据所述待搜索数据计算相关性排序指标;计算重要性排序指标;根据所述相关性排序指标、重要性排序指标和算法公式得到文章最终评分;根据所述文章最终评分进行搜索结果排序。2.如权利要求1所述的文献搜索排序方法,其特征在于,所述相关性排序指标包括BM25算法的评分、搜索词的近邻关系累计评分;根据所述待搜索数据计算相关性排序指标具体为:基于BM25算法,采用Elasticsearch引擎对所述待搜索数据进行处理,得到BM25算法的评分;采用Elasticsearch引擎对所述待搜索数据进行处理,得到搜索词的近邻关系累计评分。3.如权利要求2所述的文献搜索排序方法,其特征在于,近邻关系累计评分通过elasticsearch引擎的脚本评分进行自定义实现,每个词出现的位置可通过配置elasticsearch引擎的term_vector中的with_position_offsets获得,每个搜索词的逆文档频率可通过elasticsearch引擎的_termverctor接口获得。4.如权利要求2所述的文献搜索排序方法,其特征在于,所述重要性排序指标包括文章学术影响力评分、文章类型评分和时间衰减因子,计算重要性排序指标具体为:采用neo4j的插件计算文章学术影响力评分;采用Elasticsearch引擎所提供的脚本评分计算时间衰减因子。5.如权利要求1所述的文献搜索方法,其特征在于,所述算法公式表示为:Score
Final
=k0×
Score
Relevance
×
DecayFactor+k1×
Score
ArticleRank
+k2×
Score
docType
其中,Score
Final
为文章最终评分;Score
Relevance
为文章与用户所输入的搜索词、短语、句子之间的经规范化的相关性评分,范围为[0,100];Score
ArticleRank
为文章学术影响力评分;Score
docType
为文章类型评分;DecayFactor为时间衰减因子;k0、k1和k2为待定系数。6.如权利要求5所述的文献搜索排序方法,其特征在于,待定系数的计算过程为:确定所述待定系数的初始值;收集分析用户搜索行为日志,得到搜索结果的点击特征数据和评分结果数据;基于多元线性回归方式,根据所述点击特征数据和评分结果数据对所述初始值进行优化,得到优化值;根据所述初始值和优化值得到所述待定系...

【专利技术属性】
技术研发人员:马明张佳玮刘冰
申请(专利权)人:中华医学杂志社有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1