System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大数据的科技信息资源检索查询系统技术方案_技高网

一种基于大数据的科技信息资源检索查询系统技术方案

技术编号:41229291 阅读:2 留言:0更新日期:2024-05-09 23:46
本发明专利技术公开了一种基于大数据的科技信息资源检索查询系统,涉及信息检索技术领域,包括:存储模块、数据获取模块、关键词模块、分类模块、分析模块、查询模块,通过数据获取模块从目标网站获取科技信息的文本数据并存储,关键词模块提取每一个文本的关键词,基于关键词通过分类模块对文本数据进行分类,通过分析模块对文本数据进行语义分析,得出各关键词之间的关系,生成关系图,查询模块对用户输入的查询信息进行分析得到关键词和关系图,基于文本数据分类信息、关键词、以及关系图计算相似得分生成查询结果,从而提高了科技信息检索的准确性和全面性。

【技术实现步骤摘要】

本专利技术涉及信息检索,更具体的说是涉及一种基于大数据的科技信息资源检索查询系统


技术介绍

1、随着互联网的发展,科技信息资源的数量不断增长,在海量的科技信息资源中查询到用户需要的科技信息具有重要意义。

2、但是,传统的科技信息检索查询系统大多基于关键词,根据用户输入的关键词进行科技信息的查询,其检索结果中往往包含许多虽然涉及到查询关键词,但是其信息的主体内容并不是查询人员希望得到的文献或者资料,极大的降低了查询人员的检索效率,并且,由于数据库内科技信息相关的文献资料数量限制,以及对检索信息理解偏差,往往导致检索结果中的文献资料并不全面或者用户得不到想要的文献资料。

3、因此,如何提高科技信息检索的准确性和全面性是本领域技术人员亟需解决的问题。


技术实现思路

1、有鉴于此,本专利技术提供了一种基于大数据的科技信息资源检索查询系统,通过对科技信息资料进行统一的收集分类整理,基于科技信息的分类信息、关键词和关系图对科技信息进行检索,从而提高科技信息检索的准确性和全面性。

2、为了实现上述目的,本专利技术提供如下技术方案:

3、本专利技术公开了一种基于大数据的科技信息资源检索查询系统,包括:存储模块,以及与所述存储模块分别连接的数据获取模块、关键词模块、分类模块、分析模块、查询模块;

4、所述数据获取模块从目标网站获取科技信息的文本数据,并存储至所述存储模块;目标网站包括中国知网、万方数据、维普数据库、百度学术等网站,还包括各省市、高校的图书馆网站;科技信息的文本数据为论文、期刊、专利、标准、报刊图书等;为每一个文本数据赋予唯一的标识信息后进行存储。

5、所述关键词模块提取每一个文本数据的关键词并存储;

6、所述分类模块根据所述关键词生成对应的分类信息并存储;

7、所述分析模块基于所述关键词对所述文本数据进行语义分析,得出各关键词之间的关系,生成关系图并存储;

8、所述查询模块对用户输入的查询信息进行分析,并基于所述分类信息、所述关键词、以及所述关系图生成查询结果。

9、进一步的,所述关键词模块首先判断所述文本数据是否自身含有关键词信息,例如学位论文、期刊文章等通常都已由作者标明了该论文的关键词或者重点词语,若文本数据包含关键词信息,则以该关键词信息作为所述关键词,从而减少系统的文本处理量。若文本数据不包含关键词信息,则基于关键词词库对关键词进行提取。

10、进一步的,所述分类模块首先根据文本数据分类数据集,计算关键词词库中各关键词属于各分类的概率;然后基于每一个文本数据的关键词,计算该文本数据属于各分类的概率,将概率大于第一阈值的分类及对应的概率作为所述分类信息。

11、进一步的,所述关系图以所述关键词为节点,对关键词共同出现的语句进行语义分析得到关键词之间的关系,以边连接具有关系的节点,并基于关系词库对边进行标注。

12、进一步的,所述查询模块执行以下步骤:

13、步骤1:计算查询信息的关键词以及关系图;

14、步骤2:根据查询信息的关键词计算待查询文本数据属于各分类的概率,并将概率大于第二阈值的分类作为目标文本数据所属分类;

15、步骤3:根据目标文本数据所属分类中文本数据的关键词与查询信息的关键词,计算第一相似得分,得分大于第三阈值的构成目标文本数据集;

16、步骤4:计算所述目标文本数据集中文本数据的关系图与查询信息的关系图之间的第二相似得分;

17、步骤5:根据所述第一相似得分和所述第二相似得分,计算所述目标文本数据集中各文本数据的综合得分,综合得分大于第四阈值的作为查询结果,并按综合得分大小排序输出。

18、进一步的,所述查询模块还包括:

19、输入单元,用于用户输入查询信息和选择查询结果;

20、显示单元,对所述查询信息以及查询结果进行显示;

21、下载单元,下载用户选择的查询结果。

22、经由上述的技术方案可知,与现有技术相比,本专利技术公开提供了一种基于大数据的科技信息资源检索查询系统,通过对重要的科技信息网站的科技信息文本数据进行爬取并整理存储,既能够保障信息检索的全面性还能够减少质量不足的科技信息对于检索结果的干扰,保证检索结果的有效性;通过对科技信息文本数据的关键词提取,并基于关键词对文本数据进行分类,可以进一步减少非目标文本数据对于检索结果的干扰,提高了检索效率;再对关键词之间的关系进行分析,得到文本数据的关系图,进而根据关键词相似得分和关系图相似得分得到综合的相似得分,能够准确的判断某一文本数据与用户想要检索得到的目标文件的相似性,从而提高了科技信息检索的准确性。

本文档来自技高网...

【技术保护点】

1.一种基于大数据的科技信息资源检索查询系统,其特征在于,包括:存储模块,以及与所述存储模块分别连接的数据获取模块、关键词模块、分类模块、分析模块、查询模块;

2.根据权利要求1所述的一种基于大数据的科技信息资源检索查询系统,其特征在于,所述关键词模块首先判断所述文本数据是否自身含有关键词信息,若包含则以该关键词信息作为所述关键词,若不包含则基于关键词词库对关键词进行提取。

3.根据权利要求1所述的一种基于大数据的科技信息资源检索查询系统,其特征在于,所述分类模块首先根据文本数据分类数据集,计算关键词词库中各关键词属于各分类的概率;然后基于每一个文本数据的关键词,计算该文本数据属于各分类的概率,将概率大于第一阈值的分类及对应的概率作为所述分类信息。

4.根据权利要求1所述的一种基于大数据的科技信息资源检索查询系统,其特征在于,所述关系图以所述关键词为节点,对关键词共同出现的语句进行语义分析得到关键词之间的关系,以边连接具有关系的节点,并基于关系词库对边进行标注。

5.根据权利要求1所述的一种基于大数据的科技信息资源检索查询系统,其特征在于,所述查询模块执行以下步骤:

6.根据权利要求1所述的一种基于大数据的科技信息资源检索查询系统,其特征在于,所述查询模块还包括:

...

【技术特征摘要】

1.一种基于大数据的科技信息资源检索查询系统,其特征在于,包括:存储模块,以及与所述存储模块分别连接的数据获取模块、关键词模块、分类模块、分析模块、查询模块;

2.根据权利要求1所述的一种基于大数据的科技信息资源检索查询系统,其特征在于,所述关键词模块首先判断所述文本数据是否自身含有关键词信息,若包含则以该关键词信息作为所述关键词,若不包含则基于关键词词库对关键词进行提取。

3.根据权利要求1所述的一种基于大数据的科技信息资源检索查询系统,其特征在于,所述分类模块首先根据文本数据分类数据集,计算关键词词库中各关键词属于各分类的概率;然后基于...

【专利技术属性】
技术研发人员:熊松泉郑长娟卢雪琴
申请(专利权)人:宁波财经学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1