基于信息聚合的全球企业科研基金资助信息半自动查找法制造技术

技术编号:32132054 阅读:33 留言:0更新日期:2022-01-29 19:33
本发明专利技术提供一种基于信息聚合的全球企业科研基金资助信息半自动查找法,该方法将企业科研资助基金信息进行聚合提取关键词,有效改善企业科研资助信息高度分散和无序化的问题,能高效检索得到有效企业科研资助信息;基于信息聚合,在检索词输入,数据源,结果返回这三方面通过信息聚合技术对企业科研基金信息查找与返回,三重保障,得到高度聚合的企业科研资助信息;解决了企业科研资助信息收录边界问题,可以明确根据爬取的结果检查收录状况;多数据源全方位聚合全球企业科研资助基金信息资源,使得全球科研资助信息更加完善。使得全球科研资助信息更加完善。使得全球科研资助信息更加完善。

【技术实现步骤摘要】
基于信息聚合的全球企业科研基金资助信息半自动查找法


[0001]本专利技术涉及信息检索领域,更具体地,涉及一种基于信息聚合的全球企业科研基金资助信息半自动查找法。

技术介绍

[0002]随着科技的不断发展,互联网的普及,信息正在以几何的速度增长,丰富的信息资源在能够满足我们的信息需求同时,却提高了我们获取有效信息的难度与时间成本。科研工作者和学生对科研资助需求很大,然而企业在网上所发布的科研资助的位置并不固定,所宣传的渠道和力度也较为有限,企业所发布的资助通知无法被科研人员有效获取,如何高效的获取企业科研基金资助信息成为需要解决的问题。
[0003]基于成熟的搜素引擎的关键词检索具有明确化、灵活化、特征化的特点。是以个性化查询为核心,在海量网站中高效获取信息的途径。其主要功能是联系发布网站与用户,通过搜索引擎自带的推荐算法,将符合检索要求的网站呈现出来,达到以用户视角获取目标网站的效果。
[0004]科研资助特别是国内的科研资助大多由政府、组织发布,其发布位置、发布形式较为固定。传统的此类通知的收集方法是在经常发布科研资助的位置本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于信息聚合的全球企业科研基金资助信息半自动查找法,其特征在于,包括以下步骤:S1:国内外元数据中聚合提取关键词,组合关键词,停用词;S2:国内外关键词,组合关键词,停用词和其他限制条件共同形成检索式,多个检索式形成检索式队列;S3:国内外数据源聚合,对多个数据源进行聚合;对国内外检索式进行变换处理,形成更方便的一体化的高级检索式和url地址检索式;S4:利用国内外检索式获取结果,对获取到的无关信息进行过滤,再人工判断收录企业科研基金资助信息,再噪音信息中提取停用词;S5:在已确定的国内外企业科研基金资助信息中提取关键词,组合关键词。2.根据权利要求1所述的基于信息聚合的全球企业科研基金资助信息半自动查找法,其特征在于,所述步骤S1中,对国内元数据中聚合提取关键词,组合关键词,停用词的具体过程是:1)、通过利用第三方信息源采集国内政府、组织科研资助基金信息;2)、基于信息聚合方法,对国内政府、组织的科研资助信息关键词进行抽取与聚合,进行处理,得到初始关键词和关键词组集合:提取国内政府、组织科研资助基金信息标题名称集合S;由集合S中将同构、高相关度的关键词p信息聚合提取得到关键词集合P;计算所聚合提取所得关键词的词频,并由关键词p的词频初步赋予其权重weight,关键词p的权重p.weight,p.weight=X,(X=1,2,3,......,n);3)、当一个科研资助基金标题有多个关键词时,进行聚合提取组合关键词得到组合关键词集合T;利用共词分析的统计方法统计两个或多个词语共同出现的频率来计算关键词与关键词之间的关联强度;4)、当关键词与关键词之间的关联强度、关键词的权重与组合关键词的词频分别大于自身某一阀值时,它们在下一次检索中将被调用;5)、根据组合关键词t的关联强度与词频,将关键词分类聚合成组合关键词。3.根据权利要求2所述的基于信息聚合的全球企业科研基金资助信息半自动查找法,其特征在于,所述步骤S1中,对国外元数据中聚合提取关键词,组合关键词,停用词的具体过程是:1)、通过利用第三方信息源采集国外企业政府、组织科研资助信息;2)、在企业科研基金标题,内容中进行抽取与聚合国外企业科研基金信息关键词k并赋予权重;3)、将同构、高相关度的关键词信息聚合提取得到关键词集合K;4)、将关键词k出现频次记录在关键词频表中,并由关键词k的词频初步赋予其权重weight,关键词的权重k.weight,k.weight=X,(X=1,2,3,......,n);5)、当一个企业科研资助基金标题有多个关键词时,进行聚合提取组合关键词得到组合关键词集合CK;利用共词分析的统计方法统计两个或多个词语共同出现的频率来计算关键词与关键词之间的关联强度;6)、当关键词与关键词之间的关联强度、关键词的权重与组合关键词的词频分别大于
自身某一阀值时,它们在下一次检索中将被调用;7)、对国外科研基金信息聚合分析,将关键词分类聚合管理。4.根据权利要求3所述的基于信息聚合的全球企业科研基金资助信息半自动查找法,其特征在于,所述步骤S2中,国内检索式的具体形成过程是:1)、利用国内政府、组织的科研资助信息抽取与聚合得到国内企业科研资助基金的初始关键词集合P,组合关键词T;2)、需求信息的录入与处理:人工补充信息需求信息,包括:企业名称,域名,科研资助发布时间信息;根据需求信息构建范围限制词;3)、人工创建停用词库,停用词的收录方式有:

人工加入停用词,

人为监控下的回收站提取;4)、利用计算机程序,将关键词,组合关键词,停用词与范围限制词自动进行组合拼接形成搜索引擎检索式;所述步骤S2中,国外检索式的具体形成过程是:1)、需求信息的录入与处理:人工补充信息需求信息,包括:企业名称,域名,科研资助发布时间信息;根据需求信息构建范围限制词;2)、人工创建停用词库:停用词的收录方式有:

人工加入停用词,

人为监控下的回收站提取;3)、利用计算机程序,将关键词,组合关键词,停用词与范围限制词自动进行组合拼接形成搜索引擎检索式。5.根据权利要求4所述的基于信息聚合的全球企业科研基金资助信息半自动查找法,其特征在于,步骤S3中,对国内数据源进行聚合的过程是:1)、数据源聚合,对多个数据源入口聚合管理,以实现动态全面地对企业科研资助信息持续有效地进行信息的获取:搜索引擎入口汇聚;第三方科研基金信息发布网站信息源聚合;国外企业科研基金资助信息收录网站;2)、利用检索式通过搜索引擎匹配结果信息:基于高级检索的检索式构建;基于修改url参数的检索式构建;3)、通过数据挖掘技术,信息聚合处理先进技术进行国内科研资助数据的获取。6.根据权利要求5所述的基于信息聚合的全球企业科研基金资助信息半自动查找法,其特征在于,步骤S3中,对国外数据源进行聚合的过程是:1)、数据源聚合,对多个数据源入口聚合管理,以实现动态全面地对企业科研信息信息持续有效地进行信息的获取:搜索引擎入口汇聚;第三方科研基金信息发布网站信息源聚合;2)、利用检索式通过搜索引擎匹配结果信息:基于高级检索的检索式构建;基于修改url参数的...

【专利技术属性】
技术研发人员:付佳林李海祥黄秋琴姜赢杨静
申请(专利权)人:北京师范大学珠海分校
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1