一种Migo搜索引擎制造技术

技术编号:18913563 阅读:25 留言:0更新日期:2018-09-12 02:58
本发明专利技术公开了一种Migo搜索引擎,包括索引数据库、全文检索模块、精确检索模块、时空分析模块,关系扩展模块。本发明专利技术的有益效果是,在相同的硬件配置下,使用Migo搜索引擎,硬件成本更廉价,检索效率更快,分析应用更高效的低成本内存数据库。

A Migo search engine

The invention discloses a Migo search engine, which comprises an index database, a full-text search module, an accurate search module, a space-time analysis module and a relationship expansion module. The beneficial effect of the invention is that under the same hardware configuration, using Migo search engine, the hardware cost is cheaper, the retrieval efficiency is faster, and the low cost memory database with more efficient application is analyzed.

【技术实现步骤摘要】
一种Migo搜索引擎
本专利技术涉及搜索引擎改进,特别是一种Migo搜索引擎。
技术介绍
公安信息在情报的应用主要基于大数据的实时分析和处理,而目前大部分公安系统使用的仍是以长驻磁盘的传统数据库,随着数据的增长和规模化应用,传统的数据库已达到了维持系统高效运转的瓶颈,在服务器配置有限的情况下,Oracle数据库在数十亿数据量中检索效率低下;数据维护困难复杂,当数据字段发生变化,数据与数据之间原有的关系代码无法适用,需要重新调整代码,成本高,且不利于维护。
技术实现思路
本专利技术的目的是为了解决上述问题,设计了一种Migo搜索引擎。实现上述目的本专利技术的技术方案为,一种Migo搜索引擎,包括,索引数据库,用于储存数据索引信息,供搜索引擎使用;全文检索模块,利用Key-Value的格式分别对词与行ID集合的存储,Value中只存储锚点信息,锚点信息标识ID集的开始位置与结始位置,对检索的关键字进行判断是否能分词,若可以分词,则将关键词分开进行检索,若不能分词,则直接检索;精确检索模块,用于应用到批量比对,无需分词;时空分析模块,用于通过把时间的粒度大小和空间的广度进行预设,再通过聚合索引分析出人的同行关系,以此分析与主体对象的伴随关系;关系扩展模块,用于提供标识对象的功能,当两个对象在同一条记录中,则认为可建立关系。作为优选,所述全文检索模块,利用Key-Value的格式分别对词与行ID集合的存储,Value中只存储锚点信息,锚点信息标识ID集的开始位置与结始位置,对检索的关键字进行判断是否能分词,若可以分词,则将关键词分开进行检索,若不能分词,则直接检索,其具体为,系统会根据词表对检索的关键字进行判断是否能分词,判断该关键字能否分词,若可以分词,则根据分词的个数各自进行操作,通过索引块数据表读取字节流,取得行号,再回到数据锚点表,查对应的字节流位置,并将各个分词的搜索结果进行交集从数据明细表中获取详细记录;若未取到行号,则停止操作。作为优选,所述时空分析模块根据人员对时间的粒度大小和空间的分布进行关联。作为优选,所述关系扩展模块用于提供标识对象的功能,当两个对象在同一条记录中,则认为可建立关系,其具体为,输入对象,系统根据精确索引的方式检索出所有相关的详细记录;在记录中提取标识对象,则该对象与主体对象存在关联。作为优选,所述关系扩展模块通过两个对象分别进行关联扩展,再对各自分析关联的标识对象进行交集,从而扩线分析两者之间存在关联关系的层数。一种应用于Migo搜索引擎的搜索方法,该方法包括,步骤一:全文检索,判断输入的关键词是否能分词,并将分离后的关键词分别进行检索,并对检索结果进行交集,显示交集后的详细记录,步骤二:精确检索,对输入的关键词进行检索,并输出检索结果;步骤三:时空分析,将时间的粒度大小和空间的广度进行预设,再通过聚合索引分析出人的同行关系,以此分析与主体对象的伴随关系;步骤四:关系扩展,提供标识对象的功能,当两个对象在同一条记录中,则认为可建立关系或者可以通过两个对象分别进行关联扩展,再对各自分析关联的标识对象进行交集,从而扩线分析两者之间存在关联关系的层数。作为优选,所述关系扩展步骤中,在记录中提取标识对象为证件号、车牌、手机号码或地址,则该对象与主体对象存在关联。利用本专利技术的技术方案制作的Migo搜索引擎,基于内存库技术的Migo搜索引擎,在相同服务器配置的前提下,使用Migo搜索引擎对数据数据进行数据关联、快速检索等应用,大大减少了服务器的成本,检索效率更快,分析应用更高效的低成本内存数据库;数据维护应用更简单,当数据有变更,有新需求时,用户只需要简单操作即可实现,而不需要等待专业的数据库人员才能进行。作下即可掌握,不需要专业的数据分类中数据关系管理更便捷,当需要新增新关系或修改关系时,无需重新导数据,只需简单调整数据属性即可解决。附图说明图1是本专利技术所述Migo搜索引擎的实施例二的逻辑框图;具体实施方式下面结合附图对本专利技术进行具体描述,一种Migo搜索引擎,包括,索引数据库1,用于储存数据索引信息,供搜索引擎使用;全文检索模块2,利用Key-Value的格式分别对词与行ID集合的存储,Value中只存储锚点信息,锚点信息标识ID集的开始位置与结始位置,对检索的关键字进行判断是否能分词,若可以分词,则将关键词分开进行检索,若不能分词,则直接检索;精确检索模块3,用于应用到批量比对,无需分词;时空分析模块4,用于通过把时间的粒度大小和空间的广度进行预设,再通过聚合索引分析出人的同行关系,以此分析与主体对象的伴随关系;关系扩展模块5,用于提供标识对象的功能,当两个对象在同一条记录中,则认为可建立关系。全文检索模块6,利用Key-Value的格式分别对词与行ID集合的存储,Value中只存储锚点信息,锚点信息标识ID集的开始位置与结始位置,对检索的关键字进行判断是否能分词,若可以分词,则将关键词分开进行检索,若不能分词,则直接检索,其具体为,系统会根据词表对检索的关键字进行判断是否能分词,判断该关键字能否分词,若可以分词,则根据分词的个数各自进行操作,通过索引块数据表读取字节流,取得行号,再回到数据锚点表,查对应的字节流位置,并将各个分词的搜索结果进行交集从数据明细表中获取详细记录;若未取到行号,则停止操作。时空分析模块4根据人员对时间的粒度大小和空间的分布进行关联。关系扩展模块5用于提供标识对象的功能,当两个对象在同一条记录中,则认为可建立关系,其具体为,输入对象,系统根据精确索引的方式检索出所有相关的详细记录;在记录中提取标识对象,则该对象与主体对象存在关联。关系扩展模块5通过两个对象分别进行关联扩展,再对各自分析关联的标识对象进行交集,从而扩线分析两者之间存在关联关系的层数。一种应用于Migo搜索引擎的搜索方法,该方法包括,步骤一:全文检索,判断输入的关键词是否能分词,并将分离后的关键词分别进行检索,并对检索结果进行交集,显示交集后的详细记录,步骤二:精确检索,对输入的关键词进行检索,并输出检索结果;步骤三:时空分析,将时间的粒度大小和空间的广度进行预设,再通过聚合索引分析出人的同行关系,以此分析与主体对象的伴随关系;步骤四:关系扩展,提供标识对象的功能,当两个对象在同一条记录中,则认为可建立关系或者可以通过两个对象分别进行关联扩展,再对各自分析关联的标识对象进行交集,从而扩线分析两者之间存在关联关系的层数。关系扩展步骤中,在记录中提取标识对象为证件号、车牌、手机号码或地址,则该对象与主体对象存在关联。实施例一:Migo搜索引擎的全文索引基于词表进行分词,目前词表中共有8千万个词,包括全国名录、地址库、常用词和所有中文字等等。在索引建立过程中,利用Key-Value的格式分别对词与行ID集合的存储。由于行ID集合(Value)占用空间非常大,所以Value的内容是存储在磁盘中,Value中只存储锚点信息,锚点信息标识ID集的开始位置与结始位置,从而大大节省内存空间,首先系统会根据词表对检索的关键字进行判断是否能分词,比如检索“珠海市新德汇”,根据词表判断关键字能否分词;判断该关键字能否分词:把这个词分成“珠海市”和“新德汇”;然后根据分词的个数各自进行操作。在哈希表中分别定位“珠海本文档来自技高网...

【技术保护点】
1.一种Migo搜索引擎,其特征在于,包括,索引数据库,用于储存数据索引信息,供搜索引擎使用;全文检索模块,利用Key‑Value的格式分别对词与行ID集合的存储,Value中只存储锚点信息,锚点信息标识ID集的开始位置与结始位置,对检索的关键字进行判断是否能分词,若可以分词,则将关键词分开进行检索,若不能分词,则直接检索;精确检索模块,用于应用到批量比对,无需分词;时空分析模块,用于通过把时间的粒度大小和空间的广度进行预设,再通过聚合索引分析出人的同行关系,以此分析与主体对象的伴随关系;关系扩展模块,用于提供标识对象的功能,当两个对象在同一条记录中,则认为可建立关系。

【技术特征摘要】
1.一种Migo搜索引擎,其特征在于,包括,索引数据库,用于储存数据索引信息,供搜索引擎使用;全文检索模块,利用Key-Value的格式分别对词与行ID集合的存储,Value中只存储锚点信息,锚点信息标识ID集的开始位置与结始位置,对检索的关键字进行判断是否能分词,若可以分词,则将关键词分开进行检索,若不能分词,则直接检索;精确检索模块,用于应用到批量比对,无需分词;时空分析模块,用于通过把时间的粒度大小和空间的广度进行预设,再通过聚合索引分析出人的同行关系,以此分析与主体对象的伴随关系;关系扩展模块,用于提供标识对象的功能,当两个对象在同一条记录中,则认为可建立关系。2.根据权利要求1所述的一种Migo搜索引擎,其特征在于,所述全文检索模块,利用Key-Value的格式分别对词与行ID集合的存储,Value中只存储锚点信息,锚点信息标识ID集的开始位置与结始位置,对检索的关键字进行判断是否能分词,若可以分词,则将关键词分开进行检索,若不能分词,则直接检索,其具体为,系统会根据词表对检索的关键字进行判断是否能分词,判断该关键字能否分词,若可以分词,则根据分词的个数各自进行操作,通过索引块数据表读取字节流,取得行号,再回到数据锚点表,查对应的字节流位置,并将各个分词的搜索结果进行交集从数据明细表中获取详细记录;若未取到行号,则停止操作。3.根据权利要求1所述的一种Migo搜索引擎,其特征在于,所述时空分析模块根据人...

【专利技术属性】
技术研发人员:冯少龙梁镜泉
申请(专利权)人:珠海市新德汇信息技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1