当前位置: 首页 > 专利查询>刘宏专利>正文

文献检索方法、系统、计算机设备及存储介质技术方案

技术编号:36984157 阅读:35 留言:0更新日期:2023-03-25 18:02
本发明专利技术适用于数据检索技术领域,尤其涉及文献检索方法、系统、计算机设备及存储介质,所述方法包括:对文献进行关键词抽取,得到文本关键词;确定各个文本关键词的权重;构建文献内容表达列表;构建索引,并进行存储;接收检索请求,根据检索请求查询索引,调取相应的文献内容表达列表,并将文献内容表达列表反馈给用户。本发明专利技术通过对各个文献进行关键字提取,并对关键字赋予权重,就可以通过具有权重属性的关键字对整个文献进行表征,以形成文献数据库,在进行检索时,根据用户请求直接调取相应的文献对应的文献内容表达列表,文献内容表达列表的内容远少于整个文献的内容,大大提高了用户的文献筛选效率,缩短了检索时间。缩短了检索时间。缩短了检索时间。

【技术实现步骤摘要】
文献检索方法、系统、计算机设备及存储介质


[0001]本专利技术属于数据检索
,尤其涉及文献检索方法、系统、计算机设备及存储介质。

技术介绍

[0002]信息检索是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。狭义的信息检索仅指信息查询。即用户根据需要,采用一定的方法,借助检索工具,从信息集合中找出所需要信息的查找过程。
[0003]文献检索是一种常用的信息检索类型,常见的文献搜索结果返回文献列表,列表中每篇文献呈现了标题链接,然后附有该篇文献的元信息,包括作者、时间、摘要、期刊信息等,文献搜索结果通常是已经按照某综合的数值指标做排列,该数值指标常常是经过某综合计算得到,而用户也会在该列表基础上自己做筛选,用户通常是通过列表中的文献标题链接,打开该篇文献,进一步阅读其摘要和正文,那么用户在阅读了列表中多篇文献的摘要甚至正文后才真正完成一轮文献筛选。
[0004]在文献检索的过程中,用户需要对检索得到的文献进行逐一阅读,方能根据其内容确定该文献是否为有用的文献,因此进行筛选的效率非常低。

技术实现思路

[0005]本专利技术实施例的目的在于提供文献检索方法,旨在解决在文献检索的过程中,用户需要对检索得到的文献进行逐一阅读,方能根据其内容确定该文献是否为有用的文献,因此进行筛选的效率非常低的问题。
[0006]本专利技术实施例是这样实现的,一种文献检索方法,所述方法包括:
[0007]对文献进行关键词抽取,得到文本关键词;
[0008]对文本关键词进行关键词权重计算,确定各个文本关键词的权重;
[0009]按照文本关键词的权重构建文献内容表达列表;
[0010]根据文献、文献唯一编号以及文献内容表达列表构建索引,并进行存储;
[0011]接收检索请求,根据检索请求查询索引,调取相应的文献内容表达列表,并将文献内容表达列表反馈给用户。
[0012]优选的,所述文本关键词直接来源为进行关键词抽取的文献。
[0013]优选的,进行关键词抽取时,采用基于词典和知识库的关键词抽取,基于TF

IDF的关键词抽取、基于TextRank的关键词抽取、基于统计机器翻译SMT的方法、基于序列标注模型的方法、基于传统机器学习分类方法的关键词抽取、基于人工智能和自然语言理解的关键词抽取或多种算法相融合的关键词抽取方法。
[0014]优选的,每一个文本关键词对应了一个权重值,权重值为量化指标,用于量化该文本关键词,一个文本关键词及其对应的权重值构成一组元组。
[0015]优选的,所述权重值通过TF

IDF算法确定。
[0016]优选的,文献内容表达列表包含有多个元组,并按照权重值降序排列。
[0017]优选的,所述文献、文献唯一编号以及文献内容表达列表一一对应。
[0018]本专利技术实施例的另一目的在于提供一种文献检索系统,所述系统包括:
[0019]文本关键词提取模块,用于对文献进行关键词抽取,得到文本关键词,对文本关键词进行关键词权重计算,确定各个文本关键词的权重,按照文本关键词的权重构建文献内容表达列表;
[0020]索引模块,用于根据文献、文献唯一编号以及文献内容表达列表构建索引;
[0021]存储模块,用于对根据文献、文献唯一编号以及文献内容表达列表以及索引进行存储;
[0022]接收模块,用于接收检索请求;
[0023]检索模块,用于根据检索请求查询索引,调取相应的文献内容表达列表;
[0024]返回模块,用于将文献内容表达列表反馈给用户。
[0025]本专利技术实施例的另一目的在于提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上所述文献检索方法的步骤。
[0026]本专利技术实施例提供的一种文献检索方法,通过对各个文献进行关键字提取,并对关键字赋予权重,那么就可以通过具有权重属性的关键字对整个文献进行表征,以形成文献数据库,在进行检索时,根据用户请求直接调取相应的文献对应的文献内容表达列表,文献内容表达列表的内容远少于整个文献的内容,大大提高了用户的文献筛选效率,缩短了检索时间。
附图说明
[0027]图1为本专利技术实施例提供的一种文献检索方法的流程图;
[0028]图2为本专利技术实施例提供的文本关键词举例示意图;
[0029]图3为本专利技术实施例提供的文献内容表达列表的示意图;
[0030]图4为本专利技术实施例提供的索引示意图;
[0031]图5为本专利技术实施例提供的一种文献检索系统的架构图;
[0032]图6为本专利技术实施例提供的一种文献检索系统的工作过程示意图。
具体实施方式
[0033]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0034]可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
[0035]TF

IDF是一种统计方法,用以评估关键词对于文本单元的重要程度。该关键词的重要性随着它在文本单元中出现的次数成正比增加,但同时会随着它在分布在全部文本单
元中的次数成反比下降。
[0036]TF

IDF的主要思想是:如果关键词在一个文本单元中出现的频率TF值高,并且在其他文本单元中很少出现(即IDF值高),则认为此关键词在该文本单元中越重要,权重值越高。
[0037]TF

IDF倾向于过滤掉常见的词语,保留重要的词语。
[0038]如图1所示,为本专利技术实施例提供的一种文献检索方法的流程图,所述方法包括:
[0039]对文献进行关键词抽取,得到文本关键词。
[0040]在实施例中,用于文本关键词抽取的主要方法包括但不限于:基于词典和知识库的关键词抽取,基于TF

IDF的关键词抽取、基于TextRank的关键词抽取、基于统计机器翻译SMT的方法、基于序列标注模型的方法、基于传统机器学习分类方法的关键词抽取、基于人工智能和自然语言理解的关键词抽取或多种算法相融合的关键词抽取方法,文本关键词又称文献原生关键词,是来自文献全文的原文,本身具备文献所在领域的业务意义的词汇,可以是一个词、词组或短语,甚至可以包含该词、词组或短语的邻接上下文的修饰部分,比如量词或其它表示概念内涵和外延的任何词,当然也可以根据实施需求来定义为不能包含上述修饰部分。文献原生关键词的基本特征,如图2所示,对文本关键词进行举例说明,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文献检索方法,其特征在于,所述方法包括:对文献进行关键词抽取,得到文本关键词;对文本关键词进行关键词权重计算,确定各个文本关键词的权重;按照文本关键词的权重构建文献内容表达列表;根据文献、文献唯一编号以及文献内容表达列表构建索引,并进行存储;接收检索请求,根据检索请求查询索引,调取相应的文献内容表达列表,并将文献内容表达列表反馈给用户。2.根据权利要求1所述的文献检索方法,其特征在于,所述文本关键词直接来源为进行关键词抽取的文献。3.根据权利要求1所述的文献检索方法,其特征在于,基于词典和知识库的关键词抽取,基于TF

IDF的关键词抽取、基于TextRank的关键词抽取、基于统计机器翻译SMT的方法、基于序列标注模型的方法、基于传统机器学习分类方法的关键词抽取、基于人工智能和自然语言理解的关键词抽取或多种算法相融合的关键词抽取方法。4.根据权利要求1所述的文献检索方法,其特征在于,每一个文本关键词对应了一个权重值,权重值为量化指标,用于量化该文本关键词,一个文本关键词及其对应的权重值构成一组元组。5.根据权利要求4所述的文献检索方法,其特征在于,所述权重值通过TF

IDF算法确定。6.根据权...

【专利技术属性】
技术研发人员:刘宏
申请(专利权)人:刘宏
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1