【技术实现步骤摘要】
本专利技术涉及数据处理领域,具体涉及。
技术介绍
随着互联网的飞速发展,信息的指数增长,数据形式的多样性,人们很难在海亮的信息中快速地找到符合自己需求的部分。全文数据库的出现,大大改善了这一现状。全文数据库,也称为文本数据库,它是管理海量文本的系统。全文数据库要完成的工作仍然是传统数据库的两大功能:存储和检索,具体而言就是文本数据的存储和任意字符串的检索。作为检索条件的字符串可以是常量型字符串,也可以是正则表达式(或其他方式,比如距离限制等等)表示的一组具有共同特征的字符串集合。目前比较常见和流行的全文检索模型有以下几种模型:署名文件(SignatureFiles)、位图(Bit Map)、倒排表(Inverted List)、Σ2矩阵Pat树和Pat数组等等。这些模型在专家们的努力下,已经相当成熟并在实践中得到广泛应用。从书目索引延伸出来的方法就是现在应用最广泛的倒排表模型。它具有创建索引速度较快的特点,在网络搜索引擎中广泛应用。但其所需的存储空间较大,查询速度较慢。署名文件虽然实现简单,但是要找到一个合适的散列函数和一个宽度适合的矢量非常困难,而且因 ...
【技术保护点】
一种基于树形结构的检索方法,用于中文搜索引擎中对中文网页数据的处理,包括:步骤S100,网页数据预处理;步骤S200,建立网页数据索引文件;步骤S300,接收用户输入的查询字符串,根据网页数据索引进行检索。
【技术特征摘要】
【专利技术属性】
技术研发人员:陈虹宇,罗阳,苗宁,
申请(专利权)人:四川神琥科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。