基于大数据的文献资源精细化检索构建方法技术

技术编号:30970418 阅读:19 留言:0更新日期:2021-11-25 20:49
本发明专利技术涉及文献查找的技术领域,公开了基于大数据的文献资源精细化检索构建方法,具体包括如下步骤:S1:用户通过输入设备进行上传所检索的文献资源关键词,所上传的关键词包括词语、数字、字母及标点符号,并且所上传的关键词中无需进行分隔,在上传后系统自动仅保留具有实际意义的名词及动词,然后在确定的名词及动词中获得能够正确表达文档内容的概念性词或词组。本发明专利技术通过多个检索集合进行筛选与缩减,最后通过应用接口输出至用户,并且输出量为1

【技术实现步骤摘要】
基于大数据的文献资源精细化检索构建方法


[0001]本专利技术专利涉及文献查找的
,具体而言,涉及基于大数据的文献资源精细化检索构建方法。

技术介绍

[0002]科技文献检索是用户获取文献的主要途径。各科技文献出版机构,如WebofKnowledge、Springer、Elsevier等都为用户提供了功能强大的文献检索工具。科研人员进入某一新的科研领域通常需要检索并阅读大量权威文献,从而掌握该领域的研究现状。
[0003]在对某一新领域知识缺乏的情况下,用户对某一新的科研领域进行文献检索时,面临两个方面的问题。一是用户难以判断检索到的成百上千篇文献与目标领域的相关程度,用户获取的检索结果严重信息过剩。检索结果需要进一步精炼。二是用户需要高效地对检索结果文献进行分析判读,在较短时间内厘清该领域的研究现状。
[0004]目前,国内外的科技文献出版商提供的文献分析工具仅对文献进行了简单的文献统计学分析,如文章被引、发文数量、发文年份统计等,未能解决用户对文章内容分析的需求。

技术实现思路

[0005]本专利技术的目的在于提供基于大数据的文献资源精细化检索构建方法,通过用户上传的关键词进行自动仅保留具有实际意义的名词及动词进行数据组织分类,数据组织分类的系统利用中央处理器接收到所提取的名词及动词通过无线发射单元发送至大数据服务器中,最后通过应用接口输出至用户,并且输出量为1

10条,从而便于用户快速筛选,同时检索精度高,便于用户能够快速进行文献资源的查找,检索智能化程度高,减小了人工检索的劳动量,旨在解决现有技术中国内外的科技文献出版商提供的文献分析工具仅对文献进行了简单的文献统计学分析,未能解决用户对文章内容分析的需求的问题。
[0006]本专利技术是这样实现的,基于大数据的文献资源精细化检索构建方法,具体包括如下步骤:
[0007]S1:用户通过输入设备进行上传所检索的文献资源关键词,所上传的关键词包括词语、数字、字母及标点符号,并且所上传的关键词中无需进行分隔,在上传后系统自动仅保留具有实际意义的名词及动词,然后在确定的名词及动词中获得能够正确表达文档内容的概念性词或词组;
[0008]S2:所获得的词或词组及进行数据分类组织,分类组织后进行分类库组织检索、归结,分别设置了多个减缩终端对分类组织后的词或词组进行独立检索输出,对所输出的检索结果进行判断查询,判断出词或词组属于哪一部分并将其分别储存于相应的集合中;
[0009]S3:在S2中利用词或词组的独立检索、归结,形成有多组关键词相对应的检索集合,并对每个检索集合进行查询请求处理的语句分析,从中提取出能正确表达查询语义的
概念性集合,然后将其带到本体中查找相应的概念,得到检索集合的概括词,并标注在检索集合上;
[0010]S4:对标注概括词的检索集合进行筛选、缩减输出量,其筛选、缩减方式为,用户再次进行关键词上传,不断剔除违背或偏离主题的检索集合,最后筛选、缩减完成后在应用接口进行集合输出,供用户查验。
[0011]进一步地,在S1中,所输入的关键词包含了文献资源的关键内容词语、发布时间、所属领域及课题关键词,且在上传后系统自动仅保留具有实际意义的名词及动词,并且对所提取的名词及动词进行后续分类组织。
[0012]进一步地,在S2中,所述数据组织分类的系统包括中央处理器,所述中央处理器与数据分类终端双向连接,所述中央处理器接收到所提取的名词及动词通过无线发射单元发送至大数据服务器中,通过大数据服务器进比对分析后再通过无线接收单元进行接收,再发送至数据分类终端进行分类处理。
[0013]进一步地,所述数据分类终端利用大数据所获得信息进行名词及动词依次输送至多个检索终端,所述检索终端检索后输出检索集合。
[0014]进一步地,所述检索终端包括关键字与拼音检索,以实现相关词检索集合,谐音检索、通假字、联想词汇的检索,以实现相近词的检索集合。
[0015]进一步地,通用词汇与通用成语的检索,以实现惯用词汇的检索集合,名词及动词的使用领域、使用背景检索,以实现引用词汇的检索集合。
[0016]进一步地,所述中央处理的的输出端连接有输出端元,所述输出单元连接筛选、缩减输出量的模块,通过输出单元将数据分类终端所检索的检索集合进行输出,输出单元所输出后的为标注概括词的检索集合。
[0017]进一步地,用户通过输出单元对标注概括词的检索集合进行筛选、缩减输出量,用户先进行查看标注概括词的检索集合,再进行关键词筛选与缩减。
[0018]进一步地,所述应用接口输出的为所筛选、缩减输出量后的标注概括词的检索集合,输出后的检索集合为1

10条,用户在接口输出时可进行实时查阅。
[0019]与现有技术相比,本专利技术提供的基于大数据的文献资源精细化检索构建方法,具备以下有益效果:
[0020]1、通过用户上传的关键词进行自动仅保留具有实际意义的名词及动词进行数据组织分类,数据组织分类的系统利用中央处理器接收到所提取的名词及动词通过无线发射单元发送至大数据服务器中,通过大数据服务器进比对分析后再通过无线接收单元进行接收,再发送至数据分类终端进行分类处理,再利用大数据所获得信息进行名词及动词依次输送至多个检索终端,检索终端检索后输出检索集合,并且通过多个检索集合进行筛选与缩减,最后通过应用接口输出至用户,并且输出量为1

10条,从而便于用户快速筛选,同时检索精度高,便于用户能够快速进行文献资源的查找,检索智能化程度高,减小了人工检索的劳动量;
[0021]2、增加了检索语义扩展,检索终端包括关键字与拼音检索,以实现相关词检索集合,谐音检索、通假字、联想词汇的检索,以实现相近词的检索集合,通用词汇与通用成语的检索,以实现惯用词汇的检索集合,名词及动词的使用领域、使用背景检索,以实现引用词汇的检索集合,可以根据用户提交的检索词推理出与原查询相近或相关的词加入查询系
统,以提高检索质量,并且提高了信息检索效率,解决了以往技术在信息检索中性能瓶颈。
附图说明
[0022]图1为本专利技术提出的基于大数据的文献资源精细化检索构建方法的流程框图;
[0023]图2为本专利技术提出的基于大数据的文献资源精细化检索构建方法中数据组织分类的系统连接图;
[0024]图3为本专利技术提出的基于大数据的文献资源精细化检索构建方法中筛选、缩减输出量的操作流程图。
具体实施方式
[0025]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0026]以下结合具体实施例对本专利技术的实现进行详细的描述。
[0027]本实施例的附图中相同或相似的标号对应相同或相似的部件;在本专利技术的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于大数据的文献资源精细化检索构建方法,其特征在于,具体包括如下步骤:S1:用户通过输入设备进行上传所检索的文献资源关键词,所上传的关键词包括词语、数字、字母及标点符号,并且所上传的关键词中无需进行分隔,在上传后系统自动仅保留具有实际意义的名词及动词,然后在确定的名词及动词中获得能够正确表达文档内容的概念性词或词组;S2:所获得的词或词组及进行数据分类组织,分类组织后进行分类库组织检索、归结,分别设置了多个减缩终端对分类组织后的词或词组进行独立检索输出,对所输出的检索结果进行判断查询,判断出词或词组属于哪一部分并将其分别储存于相应的集合中;S3:在S2中利用词或词组的独立检索、归结,形成有多组关键词相对应的检索集合,并对每个检索集合进行查询请求处理的语句分析,从中提取出能正确表达查询语义的概念性集合,然后将其带到本体中查找相应的概念,得到检索集合的概括词,并标注在检索集合上;S4:对标注概括词的检索集合进行筛选、缩减输出量,其筛选、缩减方式为,用户再次进行关键词上传,不断剔除违背或偏离主题的检索集合,最后筛选、缩减完成后在应用接口进行集合输出,供用户查验。2.如权利要求1所述的基于大数据的文献资源精细化检索构建方法,其特征在于,在S1中,所输入的关键词包含了文献资源的关键内容词语、发布时间、所属领域及课题关键词,且在上传后系统自动仅保留具有实际意义的名词及动词,并且对所提取的名词及动词进行后续分类组织。3.如权利要求2所述的基于大数据的文献资源精细化检索构建方法,其特征在于,在S2中,所述数据组织分类的系统包括中央处理器,所述中央处理器与数据分类终端双向连接,所述中央处理器接收到所提取的名词及动词通过无线发射单元发送至大数据服务器中,通过大数...

【专利技术属性】
技术研发人员:程家忠张慧
申请(专利权)人:翰和文化教育深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1