新一代行业知识全文检索方法技术

技术编号:10106537 阅读:226 留言:0更新日期:2014-06-01 21:00
一种新一代行业知识全文检索方法,1,构建分词词典:构建分词词典,并将词典信息存入数据库;2,构建全量索引:对已经存在的全文文档“也称为知识点文档”进行读取、分词和分析,建立索引文件;3,构建增量索引:对新增的文档进行处理,更新硬盘上的索引文件;4,构建内存索引,构建内存分词词典:将分词词典数据读入内存,构建内存分词词典数据结构;步骤5,全文检索,标准化用户问题,分词,语义理解,语义扩展,获取候选文档,排序候选文档其中,系统初始化的时候,构建分词词典;构建全量索引:读取所有的知识点文档,全量构建硬盘索引文件“简称索引文件”;新增全文文档的时候,构建增量索引,这三个活动,独立于全文检索模块,独立运行。

【技术实现步骤摘要】
【专利摘要】一种,1,构建分词词典:构建分词词典,并将词典信息存入数据库;2,构建全量索引:对已经存在的全文文档“也称为知识点文档”进行读取、分词和分析,建立索引文件;3,构建增量索引:对新增的文档进行处理,更新硬盘上的索引文件;4,构建内存索引,构建内存分词词典:将分词词典数据读入内存,构建内存分词词典数据结构;步骤5,全文检索,标准化用户问题,分词,语义理解,语义扩展,获取候选文档,排序候选文档其中,系统初始化的时候,构建分词词典;构建全量索引:读取所有的知识点文档,全量构建硬盘索引文件“简称索引文件”;新增全文文档的时候,构建增量索引,这三个活动,独立于全文检索模块,独立运行。【专利说明】
本专利技术涉及全文检索领域,尤其是行业知识的全文检索领域,提出了一种新的行业知识全文检索系统和方法。
技术介绍
全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。全文检索是一种将文件中所有文本本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:王卫民符建辉王石
申请(专利权)人:镇江诺尼基智能技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1