非结构化数字资源全文检索方法及系统技术方案

技术编号：21399037 阅读：24 留言：0更新日期：2019-06-19 07:00

本发明专利技术公开了一种非结构化数字资源全文检索方法及系统，属于信息检索领域，针对现有检索方式效率不高的问题，提供了以下技术方案，获取用户权限信息，进行用户认证；认证通过后，判断用户是否登录；若用户登录，调用数据库查询接口；划分关键词；于数据库内搜索与关键词相关索引数据；将搜索结果依据权重进行排序；搜索结果关键词部分区别标识；搜索结果二次封装并返回。获取用户权限信息进行认证，仅在认证通过后才可进行下一步操作，减少无权限人员的干扰，在登陆之后调用数据查询接口，按照关键词在索引数据中进行检索，对各个文件数据的自动检索，而无须采用逐个查找存储装置的方式来检索目标数据，从而提高了数据的检索效率。

全部详细技术资料下载

【技术实现步骤摘要】
非结构化数字资源全文检索方法及系统
本专利技术涉及信息检索领域，更具体地说，它涉及一种非结构化数字资源全文检索方法及系统。
技术介绍
我们生活中的数据总体分为两种：结构化数据和非结构化数据。结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等。当然有的地方还会提到第三种，半结构化数据，如XML，HTML等，当根据需要可按结构化数据来处理，也可抽取出纯文本按非结构化数据来处理。非结构化数据又一种叫法叫全文数据。按照数据的分类，搜索也分为两种：对结构化数据的搜索：如对数据库的搜索，用SQL语句。再如对元数据的搜索，如利用windows搜索对文件名，类型，修改时间进行搜索等。对非结构化数据的搜索：如利用windows的搜索也可以搜索文件内容，Linux下的grep命令，再如用Google和百度可以搜索大量内容数据。主要包括顺序扫描法(SerialScanning)、全文索引两种。所谓顺序扫描，比如要找内容包含某一个字符串的文件，就是一个文档接一个文档的看，对于每一个文档，从头看到尾，如果此文档包含此字符串，则此文档为我们要找的文件，接着看下一个文件，直到扫描完所有的文件。如利用windows的搜索也可以搜索文件内容，只是相当的慢。如果你有一个80G硬盘，如果想在上面找到一个内容包含某字符串的文件，不花他几个小时，怕是做不到。Linux下的grep命令也是这一种方式。大家可能觉得这种方法比较原始，但对于小数据量的文件，这种方法还是最直接，最方便的。但是对于大量的文件，这种方法就很慢了。由于...

【技术保护点】
1.一种非结构化数字资源全文检索方法，其特征在于：包括获取用户权限信息，进行用户认证；认证通过后，判断用户是否登录；若用户登录，调用数据库查询接口；划分关键词；于数据库内搜索与关键词相关索引数据；将搜索结果依据权重进行排序；搜索结果关键词部分区别标识；搜索结果二次封装并返回。

【技术特征摘要】
1.一种非结构化数字资源全文检索方法，其特征在于：包括获取用户权限信息，进行用户认证；认证通过后，判断用户是否登录；若用户登录，调用数据库查询接口；划分关键词；于数据库内搜索与关键词相关索引数据；将搜索结果依据权重进行排序；搜索结果关键词部分区别标识；搜索结果二次封装并返回。2.根据权利要求1所述的非结构化数字资源全文检索方法，其特征在于：所述用户认证采用OAuth2获取授信的统一身份进行认证。3.根据权利要求1所述的非结构化数字资源全文检索方法，其特征在于：还包括采用jwt进行数据授信认证传输。4.根据权利要求3所述的非结构化数字资源全文检索方法，其特征在于：还包括采用https授信的证书进行传输管理。5.一种非结构化数字资源全文检索系统，其特征...

【专利技术属性】
技术研发人员：魏忠，林志威，
申请(专利权)人：南京庚商网络信息技术有限公司，苏州庚商教育智能科技有限公司，上海庚商网络信息技术有限公司，西安庚商网络信息技术有限公司，珠海庚商教育科技有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人