【技术实现步骤摘要】
一种基于相关性和重要性的文献搜索排序方法及电子设备
[0001]本专利技术涉及文献搜索
,具体涉及一种基于相关性和重要性的文献搜索排序方法及电子设备。
技术介绍
[0002]在文献搜索领域,一般是基于词袋模型(例如TF
‑
IDF)来评估文章的相关性以进行排序展示。用户一般会对近期发表的文章比较感兴趣,同时会更关注学术影响力较强的文章,如有只采用词袋模型进行文献搜索时,所得到的文献搜索结果的排序和用户上述的预期会产生一定偏差,无法满足用户需求。
[0003]此外,在实际研究中,本申请专利技术人发现:用户所键入的检索词或者句子在分词后形成多个词,这些词的位置和顺序在实际搜索时却并没被词袋模型所考虑。但这一点在全文检索中尤其重要。
技术实现思路
[0004]针对现有技术存在的上述缺陷,本专利技术实施例的目的在于提供一种基于相关性和重要性的文献搜索排序方法及电子设备。
[0005]为实现上述目的,第一方面,本专利技术实施例提供了一种基于相关性和重要性的文献搜索排序方法,包括:
[0006]获取用户输入的待搜索数据;
[0007]根据所述待搜索数据计算相关性排序指标;
[0008]计算重要性排序指标;
[0009]根据所述相关性排序指标、重要性排序指标和算法公式得到文章最终评分;
[0010]根据所述文章最终评分进行搜索结果排序。
[0011]作为本申请的一种具体实施方式,所述相关性排序指标包括BM25算法的评分、搜索词的近 ...
【技术保护点】
【技术特征摘要】
1.一种基于相关性和重要性的文献搜索排序方法,其特征在于,包括:获取用户输入的待搜索数据;根据所述待搜索数据计算相关性排序指标;计算重要性排序指标;根据所述相关性排序指标、重要性排序指标和算法公式得到文章最终评分;根据所述文章最终评分进行搜索结果排序。2.如权利要求1所述的文献搜索排序方法,其特征在于,所述相关性排序指标包括BM25算法的评分、搜索词的近邻关系累计评分;根据所述待搜索数据计算相关性排序指标具体为:基于BM25算法,采用Elasticsearch引擎对所述待搜索数据进行处理,得到BM25算法的评分;采用Elasticsearch引擎对所述待搜索数据进行处理,得到搜索词的近邻关系累计评分。3.如权利要求2所述的文献搜索排序方法,其特征在于,近邻关系累计评分通过elasticsearch引擎的脚本评分进行自定义实现,每个词出现的位置可通过配置elasticsearch引擎的term_vector中的with_position_offsets获得,每个搜索词的逆文档频率可通过elasticsearch引擎的_termverctor接口获得。4.如权利要求2所述的文献搜索排序方法,其特征在于,所述重要性排序指标包括文章学术影响力评分、文章类型评分和时间衰减因子,计算重要性排序指标具体为:采用neo4j的插件计算文章学术影响力评分;采用Elasticsearch引擎所提供的脚本评分计算时间衰减因子。5.如权利要求1所述的文献搜索方法,其特征在于,所述算法公式表示为:Score
Final
=k0×
Score
Relevance
×
DecayFactor+k1×
Score
ArticleRank
+k2×
Score
docType
其中,Score
Final
为文章最终评分;Score
Relevance
为文章与用户所输入的搜索词、短语、句子之间的经规范化的相关性评分,范围为[0,100];Score
ArticleRank
为文章学术影响力评分;Score
docType
为文章类型评分;DecayFactor为时间衰减因子;k0、k1和k2为待定系数。6.如权利要求5所述的文献搜索排序方法,其特征在于,待定系数的计算过程为:确定所述待定系数的初始值;收集分析用户搜索行为日志,得到搜索结果的点击特征数据和评分结果数据;基于多元线性回归方式,根据所述点击特征数据和评分结果数据对所述初始值进行优化,得到优化值;根据所述初始值和优化值得到所述待定系...
【专利技术属性】
技术研发人员:马明,张佳玮,刘冰,
申请(专利权)人:中华医学杂志社有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。