【技术实现步骤摘要】
一种检索结果智能推荐方法、装置及统一检索方法
[0001]本专利技术涉及烟草科技文献资源检索领域,尤其是涉及一种检索结果智能推荐方法、装置及统一检索方法。
技术介绍
[0002]科技文献资源蕴含着大量的信息知识,是重要的知识库。对烟草领域来说,论文、专利成果等科技文献包含了烟草领域85%
‑
90%的科技信息,有效利用这些文献资料中所包含知识信息,可以避免重复研究,挺高工作效率,降低工作成本,同时也可以为开发新产品、新技术提供理论和技术支撑。一直以来,烟草行业都非常重视对科技创新工作的投入,近些年其在科学研究、技术开发和生产经营等活动中,积累了海量的科技文献信息资源,如烟草类科技论文、烟草专利、烟草标准、烟草科技成果等数据,数据量已达到了百万条。烟草科技文献资源的爆发式增长,促使烟草行业对科技信息资源的需求已从单纯的资源获取演变为精准的知识服务需求,这对烟草科技文献平台的资源整合能力、信息检索能力、知识精准定位能力、知识分析能力都提出了极大的挑战。将多种来源、不同结构和数据类型多样化的烟草科技文献资源进行深度融合,并提供统一检索和精准推荐服务,是提高烟草科研人员跨学科、跨领域、跨检索库获取知识资源的重要方法,也是完善文献信息资源共享机制、提高文献类信息服务水平的有效支撑手段。
[0003]烟草领域是一个跨越多个学科的领域,涵盖生物、化学、农业、工艺等多个学科,从烟草科技文献的数据来源上看,烟草科技文献资源一般可分为自有文献资源库和外购文献资源库两大类,这些烟草科技文献资源往往数量巨大、种类繁多 ...
【技术保护点】
【技术特征摘要】
1.一种检索结果智能推荐方法,其特征在于,包括以下步骤:S1,获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;S2,获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;S3,根据检索结果计算每个查询关键词的综合位置权重值以及值;S4,基于每个查询关键词的综合位置权重值、值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。2.根据权利要求1所述的一种检索结果智能推荐方法,其特征在于,S1的具体步骤如下:构建科技文献语料库,对科技文献语料库进行去停用词和分词操作后,采用TF
‑
IDF算法提取科技文献语料库的关键词;计算每个关键词的领域特征权重:;其中,为关键词,表示关键词在科技文献语料库的逆文档频率,表示对数函数。3.根据权利要求1或2所述的一种检索结果智能推荐方法,其特征在于,S2中确定查询语句的查询关键词具体步骤如下:在检索框输入查询语句,经过分词和去停用词操作后得到查询语句的基础关键词;利用训练的科技文献词向量模型,在预先构建的科技文献关键词扩展库中采用余弦相似度计算方法进行计算,得到每个扩展词与基础关键词的相似度;按照相似度从大到小顺序对扩展词进行排序,选取相似度排序靠前的预设个数的扩展词,执行同/近义词合并,得到扩展关键词;将每个基础关键词以及其对应的扩展关键词作为查询关键词。4.根据权利要求3所述的一种检索结果智能推荐方法,其特征在于,在获取扩展关键词后,将每个基础关键词与其对应的扩展关键词的词向量进行正则化、归一化处理,获得每个基础关键词与其对应的扩展关键词的词向量空间模型;基于每个基础关键词与其对应的扩展关键词的词向量空间模型,分别计算每个基础关键词及其对应的扩展关键词在查询语句中的特征权重:键词及其对应的扩展关键词在查询语句中的特征权重:i其中,表示特征权重值,S表示查询语句的向量,表示基础关键词或扩展关键词的向量,表示扩展关键词与基础关键词的相似度顺序,i=0时,表示基础关键词,代表基础关键词或扩展关键词与查询语句的相似度;在基于每个查询关键词的综合位置权重值、值以及领域特征权值计算检索结果与查询语句的相关度时,基于科技文献检索结果评价分析模型进行计算;其中,表示对查询语句分词后的每个查询关键词在一条检索结果中出现的频率;
表示查询关键词在所有检索结果的逆文档频率;表示查询关键词在科技文献领域的领域特征权值,为查询关键词的综合位置权重值。5.根据权利要求3所述的一种检索结果智能推荐方法,其特征在于,科技文献词向量模型的训练步骤如下:构建科技文献语料库,对科技文献语料库进行去停用词和分词操作后,采用Word2vec嵌入模型对科技文献语料库进行训练学习,生成科技文献词向量模型,得到每个关键词的词向量形式;科技文献关键词扩展库的构建步骤如下:构建科技文献语料库,对科技文献语料库进行去停用词和分词操作后,采用TF
‑
IDF算法提取科技文献语料库的文献关键词,并进行同义词、近义词扩展;根据关键词扩展库中的文献关键词,在科学技术叙词表和术语表的基础上,结合领域主题词词库,构建科技关键词词典;利用训练的科技文献词向量模型,在科技文献语料库中采用余弦相似度计算方法进行计算,构建关键词语义相似度匹配模型;基于词汇语义相似度匹配模型对科技关键词词典的各个关键词进行同义词、近义词扩展,得到科技文献关键词扩展库。6.一种检索结果智能推荐装置,其特征在于,包括:关键词特征权值获取单元,用于获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;查询单元,用于获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;综合位置权重值获取单元,用于根据检索结果计算每个查询关键词的综合位置权重值;计算单元,用于计算每个查询关键词在检索结果中的值;排序单元,用于基于每个查询关键词的综合位置权重值、值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关...
【专利技术属性】
技术研发人员:王永胜,冯伟华,刘亚丽,宗国浩,王迪,王锐,胡斌,贾楠,王金棒,
申请(专利权)人:中国烟草总公司郑州烟草研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。