大数据检索方法及装置制造方法及图纸

技术编号:15438300 阅读:88 留言:0更新日期:2017-05-26 04:15
本发明专利技术提供了一种大数据检索方法及装置,所述检索方法包含:获取待存储的体彩文本数据,所述体彩文本数据包含复数个文本数据;根据所述文本数据建立唯一的索引号,所述索引号与所述文本数据一对一设置;根据复数个所述索引号建立索引表,并通过所述索引表将所述文本数据按序存储至数据库中;通过待检索信息的特征信息确定待检索信息所对应的索引号;根据所述索引表与所述待检索信息所对应的索引号确定所述数据库中待检索信息的存储位置;通过本发明专利技术所提供的大数据检索方法及装置,可根据特定的需求场景在成百上千万条记录中查询到需要的数据,查询时间控制在毫秒级,大大加快了体彩销售终端的数据查询速度。

Large data retrieval method and device

The present invention provides a method and device for data retrieval, the retrieval method includes: acquiring text data to be stored in the lottery, the lottery text data comprising a plurality of text data; according to the text data set only index, the index number and the text data on a set; according to a plurality of the i-number indexing table, and the index table of the text data sequentially stored to the database; determine the index number to retrieve the corresponding information through the feature information to retrieve information; according to the storage location to retrieve information index number of the index table and the corresponding retrieval the determination of the information in the database; method and device for searching through large data provided by the invention, according to the specific needs of the scene in the millions of records in the query to the needs of the Data, the query time is controlled at millisecond level, which greatly accelerates the data query speed of the lottery terminal.

【技术实现步骤摘要】
大数据检索方法及装置
本专利技术涉及彩票数据查询领域,尤指一种大数据检索方法及装置。
技术介绍
随着体彩系统交易量的不断上升,系统记录的文件数据呈现爆炸式的增长,如何从海量数据中发现潜在的规律和知识已经是一个不可回避的问题,而文本数据存储系统可以很好地解决这一问题。文本数据存储系统为客户端提供了一种简单的数据模型,客户端可以动态地控制数据的布局和格式,并且利用底层数据存储的局部性特征。但是对数据的检索速度,由于文本数据存储系统采用的是Key-Value存储方式,因此对基于Value的条件查询都是全表扫描,对于小数据量没问题,但是一旦数据量大到百万,千万级(我们这里是一天就千万级)那就会无法接受,会非常非常非常慢。
技术实现思路
由于文本数据存储系统是key-value存储系统,因此对基于value的条件查询都是全表扫描,对于小数据量没问题,但是一旦数据量大到百万,千万级那就会无法接受,会非常非常非常慢;为此,本专利技术目的在于提供一种高效的检索方法及装置帮助用户快速定位检索内容。为达上述目的,本专利技术具体提供一种大数据检索方法,所述检索方法包含:获取待存储的体彩文本数据,所述体彩文本数据包含复数个文本数据;根据所述文本数据建立唯一的索引号,所述索引号与所述文本数据一对一设置;根据复数个所述索引号建立索引表,并通过所述索引表将所述文本数据按序存储至数据库中;通过待检索信息的特征信息确定待检索信息所对应的索引号;根据所述索引表与所述待检索信息所对应的索引号确定所述数据库中待检索信息的存储位置。在上述大数据检索方法中,优选地,所述索引号为KEY值。在上述大数据检索方法中,优选地,所述根据所述文本数据建立唯一的索引号包含:分析所述文本数据,获得所述文本数据的特征信息,根据所述特征信息生成唯一索引号。在上述大数据检索方法中,优选地,所述文本数据的特征信息包含:所述文本数据的存入时间、存入所述文本数据的操作地址信息以及所述操作地址信息存入所述文本数据的顺序编号。在上述大数据检索方法中,优选地,所述根据复数个所述索引号建立索引表包含将所述文本数据的存入时间、存入所述文本数据的操作地址信息以及所述操作地址信息存入所述文本数据的顺序编号相加,获得所述KEY值的数值大小,根据所述KEY值的数值大小对所述KEY值进行排序并根据所述KEY值排序后的顺序生成索引表。在上述大数据检索方法中,优选地,所述检索方法还包含:按预定周期筛选所述文本数据,将超出预定阈值的所述文本数据及其在所述索引表中对应的所述索引号删除。在上述大数据检索方法中,优选地,所述检索方法还包含:当接收到复数个文本数据时,分别对所述文本数据建立索引号,将所述索引号与所述索引表中索引号比对,根据比对结果将所述索引号插入所述索引表中并将所述索引号所对应的所述文本数据对应插入数据库中存储的文本数据中。本专利技术还提供一种大数据检索装置,所述检索装置包含数据获取模块、检索模块和存储模块;所述数据获取模块用于获取待存储的体彩文本数据,所述体彩文本数据包含复数个文本数据;所述检索模块用于根据所述文本数据建立唯一的索引号,所述索引号与所述文本数据一对一设置;根据复数个所述索引号建立索引表,并通过所述索引表将所述文本数据按序存储至所述存储模块中;以及,通过待检索信息的特征信息确定待检索信息所对应的索引号;根据所述索引表与所述待检索信息所对应的索引号确定所述存储模块中待检索信息的存储位置;所述存储模块用于存储所述索引表和所述文本数据。在上述大数据检索装置中,优选地,所述检索模块还用于当接收到复数个文本数据时,分别对所述文本数据建立索引号,将所述索引号与所述索引表中索引号比对,根据比对结果将所述索引号插入所述索引表中并将所述索引号所对应的所述文本数据对应插入所述存储模块中存储的文本数据中。在上述大数据检索装置中,优选地,所述检索装置还包含清理模块,所述清理模块用于按预定周期筛选所述存储模块中的所述文本数据,将超出预定阈值的所述文本数据及其在所述索引表中对应的所述索引号删除。本专利技术的有益技术效果在于:通过本专利技术所提供的大数据检索方法及装置,可根据特定的需求场景在成百上千万条记录中查询到需要的数据,查询时间控制在毫秒级,大大加快了体彩销售终端的数据查询速度。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,并不构成对本专利技术的限定。在附图中:图1为本专利技术所提供的大数据检索方法的流程示意图;图2为本专利技术所提供的大数据检索装置的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。请参考图1所示,本专利技术提供了一种大数据检索方法,具体包含:S101获取待存储的体彩文本数据,所述体彩文本数据包含复数个文本数据;S102根据所述文本数据建立唯一的索引号,所述索引号与所述文本数据一对一设置;S103根据复数个所述索引号建立索引表,并通过所述索引表将所述文本数据按序存储至数据库中;S104通过待检索信息的特征信息确定待检索信息所对应的索引号;S105根据所述索引表与所述待检索信息所对应的索引号确定所述数据库中待检索信息的存储位置。其中,所述索引号为KEY值。在上述实施例中,所述根据所述文本数据建立唯一的索引号包含:分析所述文本数据,获得所述文本数据的特征信息,根据所述特征信息生成唯一索引号。其中,所述文本数据的特征信息包含:所述文本数据的存入时间DATETIME、存入所述文本数据的操作地址信息SID以及所述操作地址信息存入所述文本数据的顺序编号SEQ。其中所述文本数据的顺序编号SEQ为同一所述文本数据的操作地址信息SID的不同操作的顺序标号。在本专利技术一优选的实施例中,所述根据复数个所述索引号建立索引表包含将所述文本数据的存入时间、存入所述文本数据的操作地址信息以及所述操作地址信息存入所述文本数据的顺序编号相加,获得所述KEY值的数值大小,根据所述KEY值的数值大小对所述KEY值进行排序并根据所述KEY值排序后的顺序生成索引表。在实际工作中,上述实施例可采用文本数据存储系统存储体彩文本数据,每条数据拥有唯一KEY,并以惯常使用的检索特性为字段;通过数据清洗解析模块获取体彩文本数据并入库;在入库过程中,对每条数据的KEY进行计算,并按KEY的顺序进行排列。在设计KEY的时候采用KEY=DATETIME+SID+SEQ(DATETIME是入库时间,SID是会话ID,SEQ为同一SID的不同操作的顺序编号),对新入库的文本数据KEY建立全文索引;以检索特性为关键字使用全文索引进行检索,直接获取符合检索特性的所有文本数据的完整信息。不论非关系型数据记录多大,上述查询时间都在毫秒级了。极大提升体彩文本数据的存储能力和检索分析性能。为提高检索效率,节约存储空间,在本专利技术一优选实施例中进一步对一些过期数据进行清理,具体的在所述检索方法还包含:按预定周期筛选所述文本数据,将超出预定阈值的所述文本数据及其在所述索引表中对应的所述索引号删除。其中预定阈值可为半年、一年等,具体设置时间可根据实际情况选择设置,本专利技术在此并不做过多限制;预定周期则可与预定阈值设定时本文档来自技高网...
大数据检索方法及装置

【技术保护点】
一种大数据检索方法,其特征在于,所述检索方法包含:获取待存储的体彩文本数据,所述体彩文本数据包含复数个文本数据;根据所述文本数据建立唯一的索引号,所述索引号与所述文本数据一对一设置;根据复数个所述索引号建立索引表,并通过所述索引表将所述文本数据按序存储至数据库中;通过待检索信息的特征信息确定待检索信息所对应的索引号;根据所述索引表与所述待检索信息所对应的索引号确定所述数据库中待检索信息的存储位置。

【技术特征摘要】
1.一种大数据检索方法,其特征在于,所述检索方法包含:获取待存储的体彩文本数据,所述体彩文本数据包含复数个文本数据;根据所述文本数据建立唯一的索引号,所述索引号与所述文本数据一对一设置;根据复数个所述索引号建立索引表,并通过所述索引表将所述文本数据按序存储至数据库中;通过待检索信息的特征信息确定待检索信息所对应的索引号;根据所述索引表与所述待检索信息所对应的索引号确定所述数据库中待检索信息的存储位置。2.根据权利要求1所述的大数据检索方法,其特征在于,所述索引号为KEY值。3.根据权利要求2所述的大数据检索方法,其特征在于,所述根据所述文本数据建立唯一的索引号包含:分析所述文本数据,获得所述文本数据的特征信息,根据所述特征信息生成唯一索引号。4.根据权利要求3所述的大数据检索方法,其特征在于,所述文本数据的特征信息包含:所述文本数据的存入时间、存入所述文本数据的操作地址信息以及所述操作地址信息存入所述文本数据的顺序编号。5.根据权利要求4所述的大数据检索方法,其特征在于,所述根据复数个所述索引号建立索引表包含将所述文本数据的存入时间、存入所述文本数据的操作地址信息以及所述操作地址信息存入所述文本数据的顺序编号相加,获得所述KEY值的数值大小,根据所述KEY值的数值大小对所述KEY值进行排序并根据所述KEY值排序后的顺序生成索引表。6.根据权利要求1所述的大数据检索方法,其特征在于,所述检索方法还包含:按预定周期筛选所述文本数据,将超出预定阈值的所述文本数据及其在所述索引表中对应的所述...

【专利技术属性】
技术研发人员:章小文朱海刚罗春水王彤
申请(专利权)人:中体彩科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1