大数据平台安全索引系统及方法技术方案

技术编号:14130706 阅读:78 留言:0更新日期:2016-12-09 19:18
一种大数据平台安全索引系统,接收客户端提交的搜索关键字信息并在搜索域内根据关键字进行搜索以标识匹配关键字的文档,服务器提供与关键字匹配的文档,所述大数据平台安全索引系统包含对所述服务器提供的文档进行处理以生成包含特征索引的相应倒排索引文件集的索引生成逻辑模块、密钥服务器、搜索请求分析模块、搜索引擎池、搜索结果生成模块、安全索引模块、元数据引擎模块。本发明专利技术还公开了一种大数据平台安全索引方法。

【技术实现步骤摘要】

本专利技术涉及一种用于大数据平台的系统及方法,尤其涉及一种大数据平台安全索引系统及方法
技术介绍
大数据平台在存储、处理、传输等过程中面临诸多安全风险。目前最好的办法就是对数据加密,断绝他人窥探隐私的可能性。搜索引擎技术很好的解决了用户在信息海洋里高效定位所需信息的难题。但通常大数据平台的搜索引擎实现都不安全,一个常见的示例是倒排索引文件以明文的形式存储,攻击者通过非法手段窃取倒排索引文件,再结合语言模型等技术就能高质量的还原出文件内容。虽然原始文件内容被加密存储在服务器,但还是会造成隐私泄露。为了满足大数据平台安全与隐私保护需求,大数据平台搜索引擎的索引文件也需要加密。但要做到却并不容易:首先,索引是个很大的文件,而加解密的过程又非常耗时;其次,大数据平台不断更新的特性注定索引文件也会被频繁修改,这些工作必然要涉及加密和解密;再次,大数据平台高速增长的特性也决定了索引文件势必非常巨大,这也将导致系统迟缓;最后,索引文件被加密后是不能直接响应业务请求的,额外的解密工作会再次拉长用户的等待时间。
技术实现思路
为了解决上述问题,本专利技术提供一种大数据平台安全索引系统及方法。一种大数据平台安全索引系统,接收客户端提交的搜索关键字信息并在搜索域内根据关键字进行搜索以标识匹配关键字的文档,服务器提供与关键字匹配的文档,所述大数据平台安全索引系统包含对所述服务器提供的文档进行处理以生成包含特征索引的相应倒排索引文件集的索引生成逻辑模块、密钥服务器、搜索请求分析模块、搜索引擎池、搜索结果生成模块;所述大数据平台安全索引系统还包括将所述索引生成逻辑模块处理产生的包含特征索引的倒排索引文件集按照单一特征智能分段并加密以密文形式安全存储在分布式文件系统hadoop中的安全索引模块、管理所述安全索引模块生成的索引段文件的元数据引擎模块;所述元数据引擎模块为管理所述安全索引模块生成的段文件并能根据特征快速定位段的索引引擎,包括包含搜索域中的段中的特征的完整索引的元数据索引模块以及被元数据索引模块索引并索引安全索引的元数据索引扩展模块;所述安全索引模块包括将所述索引生成逻辑模块生成的倒排索引文件集写入索引缓存并能支持索引缓存更新的高速缓存模块、分析所述高速缓存中的索引缓存数据并按需生成持久化任务以及分析元数据引擎中的安全索引段生成相应段优化任务的优化器。其中,所述优化器包括检查所述高速缓存中需要持久化的索引缓存数据并生成持久化任务和分析所述元数据引擎中记录的安全索引段的状态信息生成段优化任务的分析器、根据所述分析器分析出的任务生成任务队列的任务队列模块、处理所述任务队列模块中记录的任务的执行器。一种大数据平台安全索引方法,采用大数据平台安全索引系统来实现安全索引,包括如下步骤:s1、用户通过客户端提交需要查询的关键字,通过所述大数据平台安全索引系统接收客户端提交的关键字信息并在搜索域内根据关键字进行搜索以标识匹配关键字的文档;s2、服务器提供与关键字匹配的文档给所述大数据平台安全索引系统;s3、由所述大数据平台安全索引系统中的索引生成逻辑模块对所述服务器提供的与关键字匹配的文档进行处理以生成包含特征索引的相应倒排索引文件集,所述倒排文件及包含特征term和文档提取凭证docID;s4、由所述大数据平台安全索引系统中的安全索引模块对s3中生成的倒排文件集按照单一特征进行智能分段,所述每一段尺寸和规范统一,并对每一段进行加密以密文形式存储在分布式文件系统Hadoop中;首先,通过所述安全索引模块中的高速缓存模块将所述倒排文件集写入索引缓存并同时支持在遇到新文档时进行索引缓存更新;其次,通过所述安全索引模块中的优化器对所述高速缓存模块中的索引缓存数据进行分析,并按需生成索引持久化任务以及段优化任务;s5、通过所述大数据平台索引系统中的元数据引擎模块对s4中生成的索引段文件进行管理,并根据需要搜索定位的文件特征快读定位特征所在的段。采用本专利技术的大数据平台安全索引系统及方发,实现了多级索引的智能加减密,不影响业务相应,省时省力,同时,能够实现索引的不断优化和更新,提高业务相应速度。附图说明图1是本专利技术的大数据平台安全索引系统体系结构示意图;图2是本专利技术的大数据平台安全索引系统中的安全索引模块结构示意图;图3是本专利技术的大数据平台安全索引方法的文档生成逻辑示意图;图4是本专利技术大数据平台安全索引方法的索引分段及加密存储示意图;图5是本专利技术的大数据平台安全索引方法的多层索引示意图;图6是本专利技术的大数据平台安全索引方法的更新索引缓存的流程示意图;图7是本专利技术的大数据平台安全索引方法的持久化索引的方法流程示意图;图8是本专利技术的大数据平台安全索引方法的持久化索引方法的新特征持久化流程示意图;图9是本专利技术的大数据平台安全索引方法的持久化索引方法的老特征持久化流程示意图;图10是本专利技术的大数据平台安全索引方法的段优化方法流程示意图。具体实施方式为了更好的理解本专利技术,下面结合附图详细说明本专利技术。如图1所示,本专利技术的一种大数据平台安全索引系统,接收客户端提交的搜索关键字信息并在搜索域内根据关键字进行搜索以标识匹配关键字的文档,服务器提供与关键字匹配的文档,所述大数据平台安全索引系统包含对所述服务器提供的文档进行处理以生成包含特征索引的相应倒排索引文件集的索引生成逻辑模块、密钥服务器、搜索请求分析模块、搜索引擎池、搜索结果生成模块;所述大数据平台安全索引系统还包括将所述索引生成逻辑模块处理产生的包含特征索引的倒排索引文件集按照单一特征智能分段并加密以密文形式安全存储在分布式文件系统hadoop中的安全索引模块、管理所述安全索引模块生成的索引段文件的元数据引擎模块;所述元数据引擎模块为管理所述安全索引模块生成的段文件并能根据特征快速定位段的索引引擎,包括包含搜索域中的段中的特征的完整索引的元数据索引模块以及被元数据索引模块索引并索引安全索引的元数据索引扩展模块;所述安全索引模块包括将所述索引生成逻辑模块生成的倒排索引文件集写入索引缓存并能支持索引缓存更新的高速缓存模块、分析所述高速缓存中的索引缓存数据并按需生成持久化任务以及分析元数据引擎中的安全索引段生成相应段优化任务的优化器。其中,如图2所示,所述优化器包括检查所述高速缓存中需要持久化的索引缓存数据并生成持久化任务和分析所述元数据引擎中记录的安全索引段的状态信息生成段优化任务的分析器、根据所述分析器分析出的任务生成任务队列的任务队列模块、处理所述任务队列模块中记录的任务的执行器。一种大数据平台安全索引方法,采用大数据平台安全索引系统来实现安全索引,包括如下步骤:s1、用户通过客户端提交需要查询的关键字,通过所述大数据平台安全索引系统接收客户端提交的关键字信息并在搜索域内根据关键字进行搜索以标识匹配关键字的文档;s2、服务器提供与关键字匹配的文档给所述大数据平台安全索引系统;s3、由所述大数据平台安全索引系统中的索引生成逻辑模块对所述服务器提供的与关键字匹配的文档进行处理以生成包含特征索引的相应倒排索引文件集,所述倒排文件及包含特征term和文档提取凭证docID;如图3所示,通过对文本数据进行文档分析之后,将文档处理成包含特征term和文档提取凭证docID的文件,然后这些经过处理之后的文件进行排序本文档来自技高网...
大数据平台安全索引系统及方法

【技术保护点】
一种大数据平台安全索引系统,接收客户端提交的搜索关键字信息并在搜索域内根据关键字进行搜索以标识匹配关键字的文档,服务器提供与关键字匹配的文档,所述大数据平台安全索引系统包含对所述服务器提供的文档进行处理以生成包含特征索引的相应倒排索引文件集的索引生成逻辑模块、密钥服务器、搜索请求分析模块、搜索引擎池、搜索结果生成模块,其特征在于,所述大数据平台安全索引系统还包括将所述索引生成逻辑模块处理产生的包含特征索引的倒排索引文件集按照单一特征智能分段并加密以密文形式安全存储在分布式文件系统hadoop中的安全索引模块、管理所述安全索引模块生成的索引段文件的元数据引擎模块;所述元数据引擎模块为管理所述安全索引模块生成的段文件并能根据特征快速定位段的索引引擎,包括包含搜索域中的段中的特征的完整索引的元数据索引模块以及被元数据索引模块索引并索引安全索引的元数据索引扩展模块;所述安全索引模块包括将所述索引生成逻辑模块生成的倒排索引文件集写入索引缓存并能支持索引缓存更新的高速缓存模块、分析所述高速缓存中的索引缓存数据并按需生成持久化任务以及分析元数据引擎中的安全索引段生成相应段优化任务的优化器。

【技术特征摘要】
2016.06.03 CN 20161039527251.一种大数据平台安全索引系统,接收客户端提交的搜索关键字信息并在搜索域内根据关键字进行搜索以标识匹配关键字的文档,服务器提供与关键字匹配的文档,所述大数据平台安全索引系统包含对所述服务器提供的文档进行处理以生成包含特征索引的相应倒排索引文件集的索引生成逻辑模块、密钥服务器、搜索请求分析模块、搜索引擎池、搜索结果生成模块,其特征在于,所述大数据平台安全索引系统还包括将所述索引生成逻辑模块处理产生的包含特征索引的倒排索引文件集按照单一特征智能分段并加密以密文形式安全存储在分布式文件系统hadoop中的安全索引模块、管理所述安全索引模块生成的索引段文件的元数据引擎模块;所述元数据引擎模块为管理所述安全索引模块生成的段文件并能根据特征快速定位段的索引引擎,包括包含搜索域中的段中的特征的完整索引的元数据索引模块以及被元数据索引模块索引并索引安全索引的元数据索引扩展模块;所述安全索引模块包括将所述索引生成逻辑模块生成的倒排索引文件集写入索引缓存并能支持索引缓存更新的高速缓存模块、分析所述高速缓存中的索引缓存数据并按需生成持久化任务以及分析元数据引擎中的安全索引段生成相应段优化任务的优化器。2.根据权利要求1所述的大数据平台安全索引系统,其特征在于,所述优化器包括检查所述高速缓存中需要持久化的索引缓存数据并生成持久化任务和分析所述元数据引擎中记录的安全索引段的状态信息生成段优化任务的分析器、根据所述分析器分析出的任务生成任务队列的任务队列模块、处理所述任务队列模块中记录的任务的执行器。3.一种大数据平台安全索引方法,其特征在于,所述大数据平台安全索引方法采用大数据平台安全索引系统来实现安全索引,包括如下步骤:s1、用户通过客户端提交需要查询的关键字,通过所述大数据平台安全索引系统接收客户端提交的关键字信息并在搜索域内根据关键字进行搜索以标识匹配关键字的文档;s2、服务器提供与关键字匹配的文档给所述大数据平台安全索引系统;s3、由所述大数据平台安全索引系统中的索引生成逻辑模块对所述服务器提供的与关键字匹配的文档进行处理以生成包含特征索引的相应倒排索引文件集,所述倒排文件及包含特征term和文档提取凭证docID;s4、由所述大数据平台安全索引系统中的安全索引模块对s3中生成的倒排文件集按照单一特征进行智能分段,所述每一段尺寸和规范统一,并对每一段进行加密以密文形式存储在分布式文件系统Hadoop中;首先,通过所述安全索引模块中的高速缓存模块将所述倒排文件集写入索引缓存并同时支持进行索引缓存更新;其次,通过所述安全索引模...

【专利技术属性】
技术研发人员:陈天莹向雷何剑
申请(专利权)人:中国电子科技网络信息安全有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1