一种基于混合数据源融合的资源检索方法技术

技术编号：17597022 阅读：83 留言：0更新日期：2018-03-31 10:13

本发明专利技术提供一种基于混合数据源融合的资源检索方法，该方法从资源的特点和已有数据出发，结果数据库和网络爬虫，将两类数据融合在一起，使得搜索更加全面，同时根据用户的行为分析，对搜索结果进行智能排序，并将用户所访问的页面进行链接分析，将其进行结构化抽取，存入原有的数据库，使得资源库更加完善。

A resource retrieval method based on mixed data source fusion

The invention provides a search method of mixed data fusion based on the resources, the method from the resource characteristics and the existing data of the database and the web crawler, two types of data together, make the search more comprehensive, at the same time based on user behavior analysis, intelligent sorting of search results, and access to the user the page link analysis, the extraction, stored in the original database, makes the resources more perfect.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于混合数据源融合的资源检索方法
本专利技术涉及数据检索方法领域，更具体地，涉及一种基于混合数据源融合的资源检索方法。
技术介绍
为实现资源的共享，解决现阶段中小微企业寻找资源困难、科技活动难以开展的问题，本专利提出一种基于混合数据源融合的资源检索方法，有利于用户对科技资源进行垂直检索，最快速高效地发现自己需要的资源。通过多年来国家对资源共享工作的开展，现阶段的资源已经汇聚了大型仪器、种质资源、实验动物、科研基地、科技文献、科学数据、科研成果等多种类型，并建设有多类资源共享平台，以达到资源供需匹配的问题。但现阶段这些平台并没有完全形成整体，通常只是区域内的资源汇聚，并且采用手工调查的方式将资源整合在一起。随着资源数据量急剧增长，资源的描述信息没有统一标准，各区域间并没有互通有无，因此，用户在寻找资源时难以检索和定位自己需要的资源。本专利提出一种基于混合数据源融合的资源检索方法，从资源的特点和已有数据出发，结果数据库和网络爬虫，将两类数据融合在一起，使得搜索更加全面，同时根据用户的行为分析，对搜索结果进行智能排序，并将用户所访问的页面进行链接分析，将其进行结构化抽取，存入原有的数据库，使得资源库更加完善。
技术实现思路
本专利技术提供一种基于混合数据源融合的资源检索方法，该方法从资源的特点和已有数据出发，结果数据库和网络爬虫，将两类数据融合在一起，使得搜索更加全面，同时根据用户的行为分析，对搜索结果进行智能排序，并将用户所访问的页面进行链接分析，将其进行结构化抽取，存入原有的数据库，使得资源库更加完善。为了达到上述技术效果，本专利技术的技术方案如下：一种基于...
一种基于混合数据源融合的资源检索方法

【技术保护点】
一种基于混合数据源融合的资源检索方法，其特征在于，包括以下步骤：S1：通过各地区资源共享平台进行构建全国的资源库；S2：采用网络爬虫获取网络中资源信息，采用垂直搜索引擎，通过与S1中得到的资源库结合，使所检索出的信息更加完善，有效地补充资源库中未包含的资源；S3：对S2中的资源库的数据进行优化处理；S4：对待检索文本进行特征维度分层检索；S5：对S4中得到的数据进行基于cookie的混合排序得出检索文本；S6：根据S5的结果更新资源库。

【技术特征摘要】
1.一种基于混合数据源融合的资源检索方法，其特征在于，包括以下步骤：S1：通过各地区资源共享平台进行构建全国的资源库；S2：采用网络爬虫获取网络中资源信息，采用垂直搜索引擎，通过与S1中得到的资源库结合，使所检索出的信息更加完善，有效地补充资源库中未包含的资源；S3：对S2中的资源库的数据进行优化处理；S4：对待检索文本进行特征维度分层检索；S5：对S4中得到的数据进行基于cookie的混合排序得出检索文本；S6：根据S5的结果更新资源库。2.根据权利要求1所述的基于混合数据源融合的资源检索方法，其特征在于，所述步骤S3的过程如下：检索数据来源于两大部分，分别是网络资源和数据库资源，其中，数据库资源又包括SQL数据库和NOSQL数据库；针对深网数据源D，进行ICTCLAS分词，去停用词，形成文本组合G1，每项文本具有来源类型标识；针对数据库资源，进行字段内分词、多字段组合、去停用词，形成文本组合G2，并将G2存入二次数据库，以供后续的检索，提交检索效率，当最新数据...

【专利技术属性】
技术研发人员：林珠，方少亮，吴佩珊，陈树敏，郑伟鸿，伍兰英，李莎，沈映娜，薛露，
申请(专利权)人：广东省科技基础条件平台中心，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人