用于大数据的搜索系统和搜索方法技术方案

技术编号:9519331 阅读:87 留言:0更新日期:2014-01-01 16:59
本发明专利技术提供了一种用于大数据的搜索系统,包括:分组单元,用于将所述大数据的索引文件分为一个或多个源组,每个源组中的索引文件包含有相同类型的资源数据;分片创建单元,用于对每个所述源组执行分片操作,得到多个分片索引文件,利用每个所述分片索引文件创建对应的索引分片;搜索单元,用于根据接收到的搜索指令,在指定的一个或多个索引分片对应的分片搜索文件中执行并发搜索操作,以获取并返回相应的搜索结果。本发明专利技术还提出了一种用于大数据的搜索方法。通过本发明专利技术的技术方案,可以实现一种分布式的索引文件搜索方法,有助于提升搜索速度,解决企业大数据的搜索效率瓶颈问题。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种用于大数据的搜索系统,包括:分组单元,用于将所述大数据的索引文件分为一个或多个源组,每个源组中的索引文件包含有相同类型的资源数据;分片创建单元,用于对每个所述源组执行分片操作,得到多个分片索引文件,利用每个所述分片索引文件创建对应的索引分片;搜索单元,用于根据接收到的搜索指令,在指定的一个或多个索引分片对应的分片搜索文件中执行并发搜索操作,以获取并返回相应的搜索结果。本专利技术还提出了一种用于大数据的搜索方法。通过本专利技术的技术方案,可以实现一种分布式的索引文件搜索方法,有助于提升搜索速度,解决企业大数据的搜索效率瓶颈问题。【专利说明】
本专利技术涉及数据搜索
,具体而言,涉及一种用于大数据的搜索系统和一种用于大数据的搜索方法。
技术介绍
企业大数据(big data),或称巨量资料,指的是企业生产、销售等过程中所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策起到积极目的的资讯。伴随着物联网、云计算、移动互联网、车联网等技术在企业信息管理中的大量应用,催生了大量的内部信息资源。据统计,企业数据每年以200%的速度增长,其中80%的数据以文件、邮件、图片、声音等非结构化数据形式存放在企业内计算机系统中,传统数据库管理系统不能胜任对这些数据的检索和处理工作,但这些大量又相对零散的数据对于企业来讲好比一座巨大的地下金矿,而大数据搜索可以成为企业在金矿里面掘金的一种手段,大数据搜索解决技术已经成为企业面临的一个急迫待解决问题。企业搜索技术是企业处理内部非结构化数据的一种重要技术手段。然而在大数据时代,数据量不断膨胀,索引文件增长过快,导致搜索性能不断下降,在可用性和效率上已经成为企业搜索应用上的新瓶颈。在现有技术中,目前现有解决企业大数据搜索主要有两种方法:—、通过Apche开源项目Hadoop解决大数据的存储问题;二、通过控制索引信息规模的方式,增量添加索引的时候,将一些不活跃索引进行删除,控制索引文件规模。但是,上述两种方案在实际的应用过程中,都存在一些缺陷。比如在方案一中,Hadoop对企业大数据的实时搜索存在效率问题,Hadoop的强项是一次存储,多次读取,而企业数据频繁修改会严重影响效率;而方案二明显是一种迫不得已的方法,以牺牲数据量为代价来提高搜索效率问题。因此,如何提升企业大数据的搜索效率,成为目前亟待解决的技术问题。
技术实现思路
本专利技术正是基于上述问题,提出了一种新的大数据的搜索技术,可以实现一种分布式的索引文件搜索方法,有助于提升搜索速度,解决企业大数据的搜索效率瓶颈问题。有鉴于此,本专利技术提出了一种用于大数据的搜索系统,包括:分组单元,用于将所述大数据的索引文件分为一个或多个源组,每个源组中的索引文件包含有相同类型的资源数据;分片创建单元,用于对每个所述源组执行分片操作,得到多个分片索引文件,利用每个所述分片索引文件创建对应的索引分片;搜索单元,用于根据接收到的搜索指令,在指定的一个或多个索引分片对应的分片搜索文件中执行并发搜索操作,以获取并返回相应的搜索结果。在该技术方案中,通过将索引文件进行分片,使得在执行搜索时,在多个索引分片上同时实现并发搜索操作,从而有效地缩短了完成所有索引文件的搜索时所需的时间,提升了搜索效率。通过根据资源数据的类型来生成不同的源组,使得在对相应的索引分片进行检索时,更易于用户根据自身的需求,直接指定对部分相应的索引分片进行检索,而无需对所有的索引分片都进行检索,有助于提升检索效率,降低检索操作所消耗的功耗和运算资源。其中,索引文件包含具体的资源数据以及基于这些资源数据生成的索引;同时,“指定的一个或多个索引分片”可以为用户根据自身的需求而指定的,也可以为默认的部分或所有的索引分片。在上述技术方案中,优选地,所述分片创建单元用于:将同一个所述源组内的资源数据,按照所处的服务器的不同,分为与所述服务器一一对应的多个分片索引文件,并创建对应的索引分片。在该技术方案中,对于原本就分别存储于多个服务器的资源数据,可以将每个服务器上存储的资源数据创建为对应的索引分片;对于原本就存储于同一个服务器中的资源数据,可以将其创建为相应的一个索引分片,或分组后创建为多个索引分片。通过基于服务器将资源数据创建为对应的索引分片,尽可能地减少了对于资源数据的移动操作,有助于减少占用的运算资源,避免数据转移可能造成的数据丢失等风险。在上述任一技术方案中,优选地,所述分片创建单元还用于:对于处于相同服务器内的资源数据,根据关系的密切程度分为多个分片索引文件,并创建对应的索引分片。在该技术方案中,密切程度是指资源数据之间是否同时满足一些预设的条件,当满足其中的一条或同时满足多条时,即可认为资源数据之间关系密切,可以作为同一类型的资源数据,用于存放在同一个索引分片中。具体地,数据之间存在关系的密切程度包括如一些数据总是(次数大于或等于预设的次数阈值)被同时调用或编辑,或一些数据都涉及到相同的用户、公司等。在上述任一技术方案中,优选地,所述搜索单元还用于:分别获取每个所述索弓I分片得到的分片搜索结果;在所有的分片搜索结果中,选择预设数量的匹配度最高的数据作为最终的搜索结果,并返回所述最终的搜索结果。在该技术方案中,基于用户输入的关键词,被指定的每个索引分片均执行相应的搜索操作,然后对所有索引分片得到的分片搜索结果进行综合后,从中选出预设数量的匹配度最高的数据,从而实现了对多个索引分片得到的分片搜索结果的合并。在上述任一技术方案中,优选地,还包括:关系存储单元,用于保存每个所述分片索引文件与其中包含的资源数据之间的对应关系;其中,所述搜索单元还用于:根据接收到的对指定资源数据的编辑指令时,根据所述对应关系确定包含所述指定资源数据的索引分片,并在确定的索引分片中搜索所述指定资源数据并执行编辑操作。在该技术方案中,通过建立分片索引文件与其中包含的资源数据之间的对应关系,使得比如用户希望更新资源数据时,需要对原始的资源数据进行编辑操作,则可以根据上述对应关系,直接查找出该资源数据所属的索引分片,从而仅需在该索引分片中搜索对应的资源数据并编辑即可,无需对其他索引分片进行搜索操作,有助于降低运算负荷,提高处理效率。根据本专利技术的又一方面,还提出了一种用于大数据的搜索方法,包括:步骤202,将所述大数据的索引文件分为一个或多个源组,每个源组中的索引文件包含有相同类型的资源数据;步骤204,对每个所述源组执行分片操作,得到多个分片索引文件,利用每个所述分片索引文件创建对应的索引分片;步骤206,根据接收到的搜索指令,在指定的一个或多个索引分片对应的分片搜索文件中执行并发搜索操作,以获取并返回相应的搜索结果。在该技术方案中,通过将索引文件进行分片,使得在执行搜索时,在多个索引分片上同时实现并发搜索操作,从而有效地缩短了完成所有索引文件的搜索时所需的时间,提升了搜索效率。通过根据资源数据的类型来生成不同的源组,使得在对相应的索引分片进行检索时,更易于用户根据自身的需求,直接指定对部分相应的索引分片进行检索,而无需对所有的索引分片都进行检索,有助于提升检索效率,降低检索操作所消耗的功耗和运算资源。其中,索引文件本文档来自技高网
...

【技术保护点】
一种用于大数据的搜索系统,其特征在于,包括:分组单元,用于将所述大数据的索引文件分为一个或多个源组,每个源组中的索引文件包含有相同类型的资源数据;分片创建单元,用于对每个所述源组执行分片操作,得到多个分片索引文件,利用每个所述分片索引文件创建对应的索引分片;搜索单元,用于根据接收到的搜索指令,在指定的一个或多个索引分片对应的分片搜索文件中执行并发搜索操作,以获取并返回相应的搜索结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:郭辉
申请(专利权)人:用友软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1