非结构化数字资源全文检索方法及系统技术方案

技术编号:21399037 阅读:24 留言:0更新日期:2019-06-19 07:00
本发明专利技术公开了一种非结构化数字资源全文检索方法及系统,属于信息检索领域,针对现有检索方式效率不高的问题,提供了以下技术方案,获取用户权限信息,进行用户认证;认证通过后,判断用户是否登录;若用户登录,调用数据库查询接口;划分关键词;于数据库内搜索与关键词相关索引数据;将搜索结果依据权重进行排序;搜索结果关键词部分区别标识;搜索结果二次封装并返回。获取用户权限信息进行认证,仅在认证通过后才可进行下一步操作,减少无权限人员的干扰,在登陆之后调用数据查询接口,按照关键词在索引数据中进行检索,对各个文件数据的自动检索,而无须采用逐个查找存储装置的方式来检索目标数据,从而提高了数据的检索效率。

【技术实现步骤摘要】
非结构化数字资源全文检索方法及系统
本专利技术涉及信息检索领域,更具体地说,它涉及一种非结构化数字资源全文检索方法及系统。
技术介绍
我们生活中的数据总体分为两种:结构化数据和非结构化数据。结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等。当然有的地方还会提到第三种,半结构化数据,如XML,HTML等,当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。非结构化数据又一种叫法叫全文数据。按照数据的分类,搜索也分为两种:对结构化数据的搜索:如对数据库的搜索,用SQL语句。再如对元数据的搜索,如利用windows搜索对文件名,类型,修改时间进行搜索等。对非结构化数据的搜索:如利用windows的搜索也可以搜索文件内容,Linux下的grep命令,再如用Google和百度可以搜索大量内容数据。主要包括顺序扫描法(SerialScanning)、全文索引两种。所谓顺序扫描,比如要找内容包含某一个字符串的文件,就是一个文档接一个文档的看,对于每一个文档,从头看到尾,如果此文档包含此字符串,则此文档为我们要找的文件,接着看下一个文件,直到扫描完所有的文件。如利用windows的搜索也可以搜索文件内容,只是相当的慢。如果你有一个80G硬盘,如果想在上面找到一个内容包含某字符串的文件,不花他几个小时,怕是做不到。Linux下的grep命令也是这一种方式。大家可能觉得这种方法比较原始,但对于小数据量的文件,这种方法还是最直接,最方便的。但是对于大量的文件,这种方法就很慢了。由于文件系统中存储的数据量较大,各个数据的存储位置也不尽相同,因此采用逐个查找存储装置的方式来检索目标数据,效率较低。
技术实现思路
针对现有技术存在的不足,本专利技术的目的在于提供一种非结构化数字资源全文检索方法及系统,具有检索效率高的优点。为实现上述目的,本专利技术提供了如下技术方案:一种非结构化数字资源全文检索方法,包括获取用户权限信息,进行用户认证;认证通过后,判断用户是否登录;若用户登录,调用数据库查询接口;划分关键词;于数据库内搜索与关键词相关索引数据;将搜索结果依据权重进行排序;搜索结果关键词部分区别标识;搜索结果二次封装并返回。采用上述技术方案,获取用户权限信息进行认证,仅在认证通过后才可进行下一步操作,减少无权限人员的干扰,在登陆之后调用数据查询接口,按照关键词在索引数据中进行检索,对各个文件数据的自动检索,而无须采用逐个查找存储装置的方式来检索目标数据,从而提高了数据的检索效率。进一步,所述用户认证采用OAuth2获取授信的统一身份进行认证。采用上述技术方案,OAuth2进行授信认证,安全性高。进一步,还包括采用jwt进行数据授信认证传输。进一步,还包括采用https授信的证书进行传输管理。采用上述技术方案,通过jwt进行数据授信认证传输,https授信的证书进行传输管理,传输安全。第二方面,提供一种非结构化数字资源全文检索系统,包括用户信息模块,用于获取用户信息;Ajax调用模块,用于创建快速动态网页;Jwtclient模块,用于授权用户进行允许的访问;权限信息模块,存储用户权限信息;路由模块,用于在网络连接中进行数据传输;服务管理模块,用于对服务进行管理;接口模块,用于对协定进行定义引用类型。采用上述技术方案,通过上述模块协同工作,在登陆之后调用数据查询接口,按照关键词在索引数据中进行检索,对各个文件数据的自动检索,而无须采用逐个查找存储装置的方式来检索目标数据,从而提高了数据的检索效率。进一步,还包括用于将检索结果封装和调用的数据封装调用模块。进一步,所述接口模块定义的接口类型有日报接口、文件接口、全文检索接口。进一步,还包括支持大数据搜索需求的ElasticSearch非结构化数据库。综上所述,本专利技术具有以下有益效果:1.获取用户权限信息进行认证,仅在认证通过后才可进行下一步操作,减少无权限人员的干扰;2.在登陆之后调用数据查询接口,按照关键词在索引数据中进行检索,对各个文件数据的自动检索,而无须采用逐个查找存储装置的方式来检索目标数据,从而提高了数据的检索效率。附图说明图1为本专利技术中非结构化数字资源全文检索方法的流程图。具体实施方式下面结合附图及实施例,对本专利技术进行详细描述。本具体实施例仅仅是对本专利技术的解释,其并不是对本专利技术的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本专利技术的权利要求范围内都受到专利法的保护。实施例1一种非结构化数字资源全文检索方法,参照图1,包括步骤S101至步骤S108。步骤S101:获取用户权限信息,进行用户认证。获取用户的身份信息,用户信息与用户身份唯一对应,用于对用户进行区分。用户信息包括用户账号及用户密码,用户认证包括认证用户账号是否属于已有账号,并且认证用户密码与该用户账号是否对应,如果是,则验证通过。用户认证采用OAuth2获取授信的统一身份进行认证,采用jwt进行数据授信认证传输,采用https授信的证书进行传输管理。步骤S102:认证通过后,判断用户是否登录。步骤S103:若用户登录,调用数据库查询接口。认证通过,判断是否有用户登录,若有用户登录,此时调用数据查询接口。接口类型有日报接口、文件接口、全文检索接口。步骤S104:划分关键词。获取至少一个文件数据,确定每一个文件数据对应的描述信息,根据所述描述信息,构建每一个所述文件数据对应的文件索引;获取用户输入的检索信息,从检索信息中解析出至少一个检索关键词。利用预设的分词器对所述描述信息中的文件内容进行分词,获得至少一个内容关键词。利用分词器对描述信息中的文件内容进行分词,形成多个内容关键词,并利用调整后的词典对内容关键词进行处理,例如,内容关键词中包括“高高”和“兴兴”两个词,可利用扩展词库将其合并为“高高兴兴”,并利用同义词库确定“高高兴兴”的同义词,例如确定出“高兴”和“快乐”。然后将处理后的内容关键词写入描述信息,替换原有的文件内容,并利用索引创建器将替换后的描述信息存入索引库,形成该文件数据对应的文件索引。由此,将各个文件索引统一在索引库进行存储,在检索时只需针对索引库所处存储位置进行检索,避免去各个磁盘查找的复杂性,从而进一步提高了数据的检索效率。步骤S105:于数据库内搜索与关键词相关索引数据。通过搜索引擎,在对应的数据库内进行检索与关键词相关的索引数据。步骤S106:将搜索结果依据权重进行排序。在搜索结果中,依据权重的逻辑,进行先后排序。可预先设置文件名和文件内容在搜索结果排序过程中分别对应的权重值,例如,设置文件名的权重值大于文件内容的权重值,则检索出与检索信息对应的多个文件数据之后,按照文件名与检索信息的相关度进行排序,即权重值越高的文件数据排名越靠前。另外,还可配置IK分词器,利用预先建立的扩展词库、禁用词库和同义词库对检索关键词进行处理,有利于进一步提高检索准确性。步骤S107:搜索结果关键词部分区别标识。之后,将搜索结果中的关键词部分进行区别表示,例如明暗度的变化或者加粗显示等。步骤S108:搜索结果二次封装并返回。将搜索结果进行二次封装,之后返回结果。实施例2一本文档来自技高网
...

【技术保护点】
1.一种非结构化数字资源全文检索方法,其特征在于:包括获取用户权限信息,进行用户认证;认证通过后,判断用户是否登录;若用户登录,调用数据库查询接口;划分关键词;于数据库内搜索与关键词相关索引数据;将搜索结果依据权重进行排序;搜索结果关键词部分区别标识;搜索结果二次封装并返回。

【技术特征摘要】
1.一种非结构化数字资源全文检索方法,其特征在于:包括获取用户权限信息,进行用户认证;认证通过后,判断用户是否登录;若用户登录,调用数据库查询接口;划分关键词;于数据库内搜索与关键词相关索引数据;将搜索结果依据权重进行排序;搜索结果关键词部分区别标识;搜索结果二次封装并返回。2.根据权利要求1所述的非结构化数字资源全文检索方法,其特征在于:所述用户认证采用OAuth2获取授信的统一身份进行认证。3.根据权利要求1所述的非结构化数字资源全文检索方法,其特征在于:还包括采用jwt进行数据授信认证传输。4.根据权利要求3所述的非结构化数字资源全文检索方法,其特征在于:还包括采用https授信的证书进行传输管理。5.一种非结构化数字资源全文检索系统,其特征...

【专利技术属性】
技术研发人员:魏忠林志威
申请(专利权)人:南京庚商网络信息技术有限公司苏州庚商教育智能科技有限公司上海庚商网络信息技术有限公司西安庚商网络信息技术有限公司珠海庚商教育科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1