一种基于混合数据源融合的资源检索方法技术

技术编号:17597022 阅读:83 留言:0更新日期:2018-03-31 10:13
本发明专利技术提供一种基于混合数据源融合的资源检索方法,该方法从资源的特点和已有数据出发,结果数据库和网络爬虫,将两类数据融合在一起,使得搜索更加全面,同时根据用户的行为分析,对搜索结果进行智能排序,并将用户所访问的页面进行链接分析,将其进行结构化抽取,存入原有的数据库,使得资源库更加完善。

A resource retrieval method based on mixed data source fusion

The invention provides a search method of mixed data fusion based on the resources, the method from the resource characteristics and the existing data of the database and the web crawler, two types of data together, make the search more comprehensive, at the same time based on user behavior analysis, intelligent sorting of search results, and access to the user the page link analysis, the extraction, stored in the original database, makes the resources more perfect.

【技术实现步骤摘要】
一种基于混合数据源融合的资源检索方法
本专利技术涉及数据检索方法领域,更具体地,涉及一种基于混合数据源融合的资源检索方法。
技术介绍
为实现资源的共享,解决现阶段中小微企业寻找资源困难、科技活动难以开展的问题,本专利提出一种基于混合数据源融合的资源检索方法,有利于用户对科技资源进行垂直检索,最快速高效地发现自己需要的资源。通过多年来国家对资源共享工作的开展,现阶段的资源已经汇聚了大型仪器、种质资源、实验动物、科研基地、科技文献、科学数据、科研成果等多种类型,并建设有多类资源共享平台,以达到资源供需匹配的问题。但现阶段这些平台并没有完全形成整体,通常只是区域内的资源汇聚,并且采用手工调查的方式将资源整合在一起。随着资源数据量急剧增长,资源的描述信息没有统一标准,各区域间并没有互通有无,因此,用户在寻找资源时难以检索和定位自己需要的资源。本专利提出一种基于混合数据源融合的资源检索方法,从资源的特点和已有数据出发,结果数据库和网络爬虫,将两类数据融合在一起,使得搜索更加全面,同时根据用户的行为分析,对搜索结果进行智能排序,并将用户所访问的页面进行链接分析,将其进行结构化抽取,存入原有的数据库,使得资源库更加完善。
技术实现思路
本专利技术提供一种基于混合数据源融合的资源检索方法,该方法从资源的特点和已有数据出发,结果数据库和网络爬虫,将两类数据融合在一起,使得搜索更加全面,同时根据用户的行为分析,对搜索结果进行智能排序,并将用户所访问的页面进行链接分析,将其进行结构化抽取,存入原有的数据库,使得资源库更加完善。为了达到上述技术效果,本专利技术的技术方案如下:一种基于混合数据源融合的资源检索方法,包括以下步骤:S1:通过各地区资源共享平台进行构建全国的资源库;S2:采用网络爬虫获取网络中资源信息,采用垂直搜索引擎,通过与S1中得到的资源库结合,使所检索出的信息更加完善,有效地补充资源库中未包含的资源;S3:对S2中的资源库的数据进行优化处理;S4:对待检索文本进行特征维度分层检索;S5:对S4中得到的数据进行基于cookie的混合排序得出检索文本;S6:根据S5的结果更新资源库。进一步地,所述步骤S3的过程如下:检索数据来源于两大部分,分别是网络资源和数据库资源,其中,数据库资源又包括SQL数据库和NOSQL数据库;针对深网数据源D,进行ICTCLAS分词,去停用词,形成文本组合G1,每项文本具有来源类型标识;针对数据库资源,进行字段内分词、多字段组合、去停用词,形成文本组合G2,并将G2存入二次数据库,以供后续的检索,提交检索效率,当最新数据添加时,进行增量存入二次数据库;G1与G2进行文本归一化,提取其词频为TOPN的词组,形成N维文本组合S。进一步地,所述步骤S4的过程如下:根据检索词与待检索文本相关性进行分层排序,按领域、地域、行业特征维度进行分层计算,分别得到各层面的排序后文本集合,T1,…,TK,K为分层数量。进一步地,所述步骤S5的过程如下:将各层次的排序结果列表进行智能混合排序,根据用户行为,分析各维度的重要性,按权值比重进行混合排序,X=aX1+bX2+cX3+..,得出最后的检索文本,并可溯源至网页链接。进一步地,所述步骤S6的过程如下:根据用户对搜索结果的点击行为,将用户访问的资源,特别是从网络爬虫途径所获取的资源,将该网页进行结构化抽取,并将信息存入S2所构建的资源库中,有利于信息的完善和速度的提升。与现有技术相比,本专利技术技术方案的有益效果是:1、本专利技术中,资源库由SQL数据库和NOSQL数据库结合组成,主要存储科技资源的数据和索引,现阶段全国各地有多地区已搭建了资源共享平台,这些平台含有大量的科技资源,但各地区资源较为独立、分散,并没有形成统一的整体。通过构建资源库,能将各地区资源有机地结合在一起,当用户通过搜索引擎寻找资源时,能够快速、准确地实现资源检索。资源库可以通过资源调查或平台接口的方式,将各地区资源共享平台的资源数据汇集至资源库,由于此时资源是跨平台、异构的,因此,采用SQL与NOSQL数据库结合存储的方式,SQL数据库主要存储结构化数据,包括索引和国家已具有数据标准规范的科技资源(如大型仪器等,这些资源在各共享平台中已比较标准化,可以存储为统一格式),NOSQL数据库主要存储非结构化数据,包括文本、图像资源以及国家未统一定义规范的资源;2、本专利技术中,资源库并不是一成不变的,而是根据资源的增加和用户的反馈不断地增加数据量。主要有两个途径进行更新,一:仍在各地区共享平台中进行挖掘,将新增平台和新增数据纳入资源库;二:根据用户使用该科技资源引擎的用户行为,将网络中搜索的、用户有行为意向的资源通过结构化信息抽取技术纳入资源库。通过两方面的建设,资源库不断丰富和完善,有利于提高工具的完整性、准确性;3、本专利技术中,数据源融合了数据库和网络两大类型,方法采用数据源的融合两类数据在一起检索和展示,采用特征维度分层的方式,分别进行相似度计算,最后根据用户行为的偏好进行混合排序,达到资源检索的目的。附图说明图1为本专利技术方法流程图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。实施例1如图1所示,一种基于混合数据源融合的资源检索方法,包括以下步骤:S1:通过各地区资源共享平台进行构建全国的资源库;S2:采用网络爬虫获取网络中资源信息,采用垂直搜索引擎,通过与S1中得到的资源库结合,使所检索出的信息更加完善,有效地补充资源库中未包含的资源;S3:对S2中的资源库的数据进行优化处理;S4:对待检索文本进行特征维度分层检索;S5:对S4中得到的数据进行基于cookie的混合排序得出检索文本;S6:根据S5的结果更新资源库。步骤S3的过程如下:检索数据来源于两大部分,分别是网络资源和数据库资源,其中,数据库资源又包括SQL数据库和NOSQL数据库;针对深网数据源D,进行ICTCLAS分词,去停用词,形成文本组合G1,每项文本具有来源类型标识;针对数据库资源,进行字段内分词、多字段组合、去停用词,形成文本组合G2,并将G2存入二次数据库,以供后续的检索,提交检索效率,当最新数据添加时,进行增量存入二次数据库;G1与G2进行文本归一化,提取其词频为TOPN的词组,形成N维文本组合S。步骤S4的过程如下:根据检索词与待检索文本相关性进行分层排序,按领域、地域、行业特征维度进行分层计算,分别得到各层面的排序后文本集合,T1,···,TK,K为分层数量。步骤S5的过程如下:将各层次的排序结果列表进行智能混合排序,根据用户行为,分析各维度的重要性,按权值比重进行混合排序,X=aX1+bX2+cX3+..,得出最后的检索文本,并可溯源至网页链接。步骤S6的过程如下:根据用户对搜索结果的点击行为,将用户访问的资源,特别是从网络爬虫途径所获取的资源,将该网页进行结构化抽取,并将信息存入S2所构建的资源库中,有利于信息的完善和速度的提升。相同或相似的标号对应相同或相似的部件;附图中描述位置关系的用于仅用于示本文档来自技高网...
一种基于混合数据源融合的资源检索方法

【技术保护点】
一种基于混合数据源融合的资源检索方法,其特征在于,包括以下步骤:S1:通过各地区资源共享平台进行构建全国的资源库;S2:采用网络爬虫获取网络中资源信息,采用垂直搜索引擎,通过与S1中得到的资源库结合,使所检索出的信息更加完善,有效地补充资源库中未包含的资源;S3:对S2中的资源库的数据进行优化处理;S4:对待检索文本进行特征维度分层检索;S5:对S4中得到的数据进行基于cookie的混合排序得出检索文本;S6:根据S5的结果更新资源库。

【技术特征摘要】
1.一种基于混合数据源融合的资源检索方法,其特征在于,包括以下步骤:S1:通过各地区资源共享平台进行构建全国的资源库;S2:采用网络爬虫获取网络中资源信息,采用垂直搜索引擎,通过与S1中得到的资源库结合,使所检索出的信息更加完善,有效地补充资源库中未包含的资源;S3:对S2中的资源库的数据进行优化处理;S4:对待检索文本进行特征维度分层检索;S5:对S4中得到的数据进行基于cookie的混合排序得出检索文本;S6:根据S5的结果更新资源库。2.根据权利要求1所述的基于混合数据源融合的资源检索方法,其特征在于,所述步骤S3的过程如下:检索数据来源于两大部分,分别是网络资源和数据库资源,其中,数据库资源又包括SQL数据库和NOSQL数据库;针对深网数据源D,进行ICTCLAS分词,去停用词,形成文本组合G1,每项文本具有来源类型标识;针对数据库资源,进行字段内分词、多字段组合、去停用词,形成文本组合G2,并将G2存入二次数据库,以供后续的检索,提交检索效率,当最新数据...

【专利技术属性】
技术研发人员:林珠方少亮吴佩珊陈树敏郑伟鸿伍兰英李莎沈映娜薛露
申请(专利权)人:广东省科技基础条件平台中心
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1