一种基于HBase的构建和检索增量索引的方法技术

技术编号:9336320 阅读:323 留言:0更新日期:2013-11-13 15:59
本发明专利技术公开了一种基于HBase的构建和检索增量索引的方法,包括以下步骤:基于HBase的列存储机制设计索引的存储结构,使用三个数据表分别保存原始文本、索引信息和统计信息;设计面向Web的待索引文本获取接口,提供基于HTTP协议的文本索引服务;对持续增加的文本构建增量索引,当新的待索引文本产生并到达时,索引系统不重新将全部数据构建索引,将新增文本的索引追加存储到已有索引中,在存储索引时,先将所有文本内容以及索引信息其放入缓冲区,当缓冲区的数据量达到阈值时批量写入数据;提供多种格式结果的检索服务接口,用户通过面向Web的接口使用检索服务,检索系统将按照用户提交的搜索请求进行检索并按用户的要求对检索结果进行格式化。

【技术实现步骤摘要】

【技术保护点】
一种基于HBase的构建和检索增量索引的方法,其特征在于,包括下述步骤:(1)利用HBase来设计增量索引的存储结构利用HBase的数据列动态可扩展的特点,将词元作为关键字主键,将文本主键作索引存储表的列字段名称,利用HBase的分布式存储的特点,实现对大规模文本和索引信息的存储,索引系统同时为多个不同的数据源分别提供索引服务;为了有效的存储索引信息,共设计三个表:a、表Ttext存储索引数据的原始信息,字段包括文本主键,文本内容与来源等信息;b、表Tindex存储数据的索引信息,字段包括关键字主键,含有关键字的数据内容所对应的全部文本主键索引列,且表Tindex中的文本主键索引列随着持续增加...

【技术特征摘要】

【专利技术属性】
技术研发人员:郑庆华董博贺欢宋凯磊徐海鹏马天陈亚兴
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1