一种检索结果智能推荐方法、装置及统一检索方法制造方法及图纸

技术编号:38224815 阅读:10 留言:0更新日期:2023-07-25 17:55
本发明专利技术提供一种检索结果智能推荐方法、装置及统一检索方法,所述检索结果智能推荐方法包括以下步骤:S1,获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;S2,获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;S3,根据检索结果计算每个查询关键词的综合位置权重值以及值;S4,基于每个查询关键词的综合位置权重值、值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。序。序。

【技术实现步骤摘要】
一种检索结果智能推荐方法、装置及统一检索方法


[0001]本专利技术涉及烟草科技文献资源检索领域,尤其是涉及一种检索结果智能推荐方法、装置及统一检索方法。

技术介绍

[0002]科技文献资源蕴含着大量的信息知识,是重要的知识库。对烟草领域来说,论文、专利成果等科技文献包含了烟草领域85%

90%的科技信息,有效利用这些文献资料中所包含知识信息,可以避免重复研究,挺高工作效率,降低工作成本,同时也可以为开发新产品、新技术提供理论和技术支撑。一直以来,烟草行业都非常重视对科技创新工作的投入,近些年其在科学研究、技术开发和生产经营等活动中,积累了海量的科技文献信息资源,如烟草类科技论文、烟草专利、烟草标准、烟草科技成果等数据,数据量已达到了百万条。烟草科技文献资源的爆发式增长,促使烟草行业对科技信息资源的需求已从单纯的资源获取演变为精准的知识服务需求,这对烟草科技文献平台的资源整合能力、信息检索能力、知识精准定位能力、知识分析能力都提出了极大的挑战。将多种来源、不同结构和数据类型多样化的烟草科技文献资源进行深度融合,并提供统一检索和精准推荐服务,是提高烟草科研人员跨学科、跨领域、跨检索库获取知识资源的重要方法,也是完善文献信息资源共享机制、提高文献类信息服务水平的有效支撑手段。
[0003]烟草领域是一个跨越多个学科的领域,涵盖生物、化学、农业、工艺等多个学科,从烟草科技文献的数据来源上看,烟草科技文献资源一般可分为自有文献资源库和外购文献资源库两大类,这些烟草科技文献资源往往数量巨大、种类繁多、结构各异,需要大量的人力来配置和维护数据源以给用户提供文献检索服务,成本巨大。此外,由于外购资源由不同的文献数据资源服务商提供,数据资源的数据结构、存储手段、发布机制、检索方式、显示形式等差异巨大,各类烟草科技文献资源无法做到有效的知识融合和精准的知识检索服务。面对数据量巨大、来源广泛且数据结构和组织形式千差万别的烟草科技文献资源,如何对海量多源异构烟草科技文献资源进行深度融合、统一检索和精准知识推荐,实现烟草科技文献资源的有序组织、快速定位和有效揭示,并对检索结果进行统一加载、统一展示和统一分析,帮助用户高效精准地找到检索内容,从而提高烟草科技文献检索的检索效率和精准度,已成为当前烟草科技文献检索领域亟需解决的问题。
[0004]由于针对烟草领域的各个科技文献数据库供应商不同,服务方式也不同,目前常用的统一检索技术一般是针对特定的数据库类型,面对海量多源异构烟草文献资源,其检索结果的质量和排序效果并不理想,异构数据库的互操作性也很差。现有的烟草文献检索方式通常是基于关键词的方式来进行检索结果匹配,提交给搜索引擎的有限关键词常常不能完整地表达其检索信息需求,且由于人类语言与机器语言的差异,使得搜索引擎在处理用户查询时,通常会丢失语义信息。并且,烟草领域跨越多个学科,涉及的科技文献种类和文献范围特别广泛,而且烟草领域有大量的烟草专有术语以及一些缩写词、合成词等,面对多源异构烟草科技文献资源,采用传统的检索方式,检索效率和性能并不高。此外,采用基
于查询关键词的检索方式,往往通过统计查询关键词在检索文献中出现的频率来对检索结果进行排序,忽略了用户检索意图和语义环境,导致海量多源异构烟草科技文献检索结果的查全率和查准率往往达不到理想的效果。
[0005]为了解决以上存在的问题,人们一直在寻求一种理想的技术解决方案。

技术实现思路

[0006]本专利技术的目的在于解决上述现有技术存在的缺陷,在对多源异构烟草科技文献检索时,针对检索条件引入一种检索结果智能推荐方法,通过对原查询关键词和查询扩展词的权重计算,不仅可以体现查询关键词的重要程度,更好的完成查询扩展任务,还能对查询扩展词和检索结果进行更深层次的相似度计算,从而提高科技文献的检索性能。
[0007]本专利技术还提供一种面向多源异构烟草科技文献资源的统一检索方法,实现海量多源异构烟草科技文献资源的统一检索和智能推荐,从而大幅度提高多源异构烟草科技文献资源检索和结果推荐的精准度,帮助用户快速、精准的找到检索内容。
[0008]为了实现上述目的,本专利技术所采用的技术方案是:一种检索结果智能推荐方法,包括以下步骤:S1,获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;S2,获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;S3,根据检索结果计算每个查询关键词的综合位置权重值以及值;S4,基于每个查询关键词的综合位置权重值、 值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。
[0009]具体的,S1的具体步骤如下:构建科技文献语料库,对科技文献语料库进行去停用词和分词操作后,采用TF

IDF算法提取科技文献语料库的关键词;计算每个关键词的领域特征权重:;其中,为关键词,表示关键词 在科技文献语料库的逆文档频率,表示对数函数。
[0010]具体的,S2中确定查询语句的查询关键词具体步骤如下:在检索框输入查询语句,经过分词和去停用词操作后得到查询语句的基础关键词;利用训练的科技文献词向量模型,在预先构建的科技文献关键词扩展库中采用余弦相似度计算方法进行计算,得到每个扩展词与基础关键词的相似度;按照相似度从大到小顺序对扩展词进行排序,选取相似度排序靠前的预设个数的扩展词,执行同/近义词合并,得到扩展关键词;将每个基础关键词以及其对应的扩展关键词作为查询关键词。
[0011]更进一步的,在获取扩展关键词后,将每个基础关键词与其对应的扩展关键词的词向量进行正则化、归一化处理,获得每个基础关键词与其对应的扩展关键词的词向量空间模型;
基于每个基础关键词与其对应的扩展关键词的词向量空间模型,分别计算每个基础关键词及其对应的扩展关键词在查询语句中的特征权重:
ꢀꢀꢀꢀꢀꢀ
i其中,表示特征权重值,S表示查询语句的向量,表示基础关键词或扩展关键词的向量,表示扩展关键词与基础关键词的相似度顺序,i=0时, 表示基础关键词, 代表基础关键词或扩展关键词与查询语句的相似度;在基于每个查询关键词的综合位置权重值、值以及领域特征权值计算检索结果与查询语句的相关度时,基于科技文献检索结果评价分析模型进行计算;其中,表示对查询语句分词后的每个查询关键词在一条检索结果中出现的频率; 表示查询关键词在所有检索结果的逆文档频率;表示查询关键词在科技文献领域的领域特征权值,为查询关键词的综合位置权重值。
[0012]本专利技术第二方面提供一种检索结果智能推荐装置,包括:关键词特征权值获取单元,用于获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;查询单元,用于获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;综合位置权重值获取单元,用于根据检索结果计算每个查询关键词的综合位置权重值;计算单元,用于计算每个查询关键词在检索结果中的值;排序单元,用于基于每个查询关键词的综合位置权本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检索结果智能推荐方法,其特征在于,包括以下步骤:S1,获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;S2,获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;S3,根据检索结果计算每个查询关键词的综合位置权重值以及值;S4,基于每个查询关键词的综合位置权重值、值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。2.根据权利要求1所述的一种检索结果智能推荐方法,其特征在于,S1的具体步骤如下:构建科技文献语料库,对科技文献语料库进行去停用词和分词操作后,采用TF

IDF算法提取科技文献语料库的关键词;计算每个关键词的领域特征权重:;其中,为关键词,表示关键词在科技文献语料库的逆文档频率,表示对数函数。3.根据权利要求1或2所述的一种检索结果智能推荐方法,其特征在于,S2中确定查询语句的查询关键词具体步骤如下:在检索框输入查询语句,经过分词和去停用词操作后得到查询语句的基础关键词;利用训练的科技文献词向量模型,在预先构建的科技文献关键词扩展库中采用余弦相似度计算方法进行计算,得到每个扩展词与基础关键词的相似度;按照相似度从大到小顺序对扩展词进行排序,选取相似度排序靠前的预设个数的扩展词,执行同/近义词合并,得到扩展关键词;将每个基础关键词以及其对应的扩展关键词作为查询关键词。4.根据权利要求3所述的一种检索结果智能推荐方法,其特征在于,在获取扩展关键词后,将每个基础关键词与其对应的扩展关键词的词向量进行正则化、归一化处理,获得每个基础关键词与其对应的扩展关键词的词向量空间模型;基于每个基础关键词与其对应的扩展关键词的词向量空间模型,分别计算每个基础关键词及其对应的扩展关键词在查询语句中的特征权重:键词及其对应的扩展关键词在查询语句中的特征权重:i其中,表示特征权重值,S表示查询语句的向量,表示基础关键词或扩展关键词的向量,表示扩展关键词与基础关键词的相似度顺序,i=0时,表示基础关键词,代表基础关键词或扩展关键词与查询语句的相似度;在基于每个查询关键词的综合位置权重值、值以及领域特征权值计算检索结果与查询语句的相关度时,基于科技文献检索结果评价分析模型进行计算;其中,表示对查询语句分词后的每个查询关键词在一条检索结果中出现的频率;
表示查询关键词在所有检索结果的逆文档频率;表示查询关键词在科技文献领域的领域特征权值,为查询关键词的综合位置权重值。5.根据权利要求3所述的一种检索结果智能推荐方法,其特征在于,科技文献词向量模型的训练步骤如下:构建科技文献语料库,对科技文献语料库进行去停用词和分词操作后,采用Word2vec嵌入模型对科技文献语料库进行训练学习,生成科技文献词向量模型,得到每个关键词的词向量形式;科技文献关键词扩展库的构建步骤如下:构建科技文献语料库,对科技文献语料库进行去停用词和分词操作后,采用TF

IDF算法提取科技文献语料库的文献关键词,并进行同义词、近义词扩展;根据关键词扩展库中的文献关键词,在科学技术叙词表和术语表的基础上,结合领域主题词词库,构建科技关键词词典;利用训练的科技文献词向量模型,在科技文献语料库中采用余弦相似度计算方法进行计算,构建关键词语义相似度匹配模型;基于词汇语义相似度匹配模型对科技关键词词典的各个关键词进行同义词、近义词扩展,得到科技文献关键词扩展库。6.一种检索结果智能推荐装置,其特征在于,包括:关键词特征权值获取单元,用于获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;查询单元,用于获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;综合位置权重值获取单元,用于根据检索结果计算每个查询关键词的综合位置权重值;计算单元,用于计算每个查询关键词在检索结果中的值;排序单元,用于基于每个查询关键词的综合位置权重值、值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关...

【专利技术属性】
技术研发人员:王永胜冯伟华刘亚丽宗国浩王迪王锐胡斌贾楠王金棒
申请(专利权)人:中国烟草总公司郑州烟草研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1