一种面向中文分词的搜索算法制造技术

技术编号：19511383 阅读：37 留言：0更新日期：2018-11-21 07:50

本发明专利技术属于文本搜索引擎技术领域，具体为一种面向中文分词的搜索算法。本发明专利技术算法主要分为两个阶段：离线构建索引阶段和在线查找阶段。在离线构建索引阶段，首先提取所有原始字符串集合的后缀串集合，然后由后缀串集合生成改进的后缀树；在在线查找阶段，首先根据基于后缀树的索引模型得到关键词的查询结果，然后量化关键词和查询结果的匹配程度，最后将查询结果按匹配程序由高到低排序后返回。本发明专利技术通过一种改进的基于后缀树的索引结构来平衡索引构建时间和占用空间，使用本发明专利技术的索引结构的搜索效率远高于对结果集暴力计算匹配度并排序的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向中文分词的搜索算法
本专利技术属于文本搜索引擎
，具体涉及一种面向中文分词的搜索算法。
技术介绍
搜索引擎是一种在线信息搜索工具，将符合用户搜索关键字的一系列搜索结果返回给用户。当今社会是个信息爆炸的时代，面对着数不尽的信息，如何快速精确定位用户想要的信息是最迫切的需求之一，信息搜索技术也因此得到快速的发展和应用。搜索最常见的形式是文本搜索，无论用户的目标资源是文字、图像、音频甚至是视频，只要输入的格式是文本，都可以归结到本专利技术搜索的范围内。现在除了谷歌、必应、雅虎等提供的全网站搜索功能外，特定领域的搜索需求也越来越大。在特定领域中(比如仅面向电视节目)，由于资源的种类有局限性，所以搜索的条件一般能做到十分明确，另外数据集的大小也在可接受的范围内，在这些前提下可以对搜索引擎做出很多有针对性的优化。目前中文搜索系统的相关技术主要有倒排索引、正排索引、署名文件、后缀树等。其中倒排索引综合性能较好且最常用，但在实际应用中，应用倒排索引模型处理大文本集合时，对CPU资源、内存空间和I/O都是十分严峻的考验。
技术实现思路
本专利技术的目的在于提出一种面向中文分词的搜索算法，应用于智能化的中文搜索引擎系统，使之能够快速地根据关键字返回搜索结果，并将结果按匹配程度由高到低排序后展示给用户。本专利技术提出的面向中文分词的搜索算法，主要可以分为两个阶段：离线构建索引阶段和在线查找阶段。在离线构建索引阶段，首先提取所有原始字符串集合的后缀串集合，然后由后缀串集合生成改进的后缀树；在在线查找阶段，首先根据基于后缀树的索引模型得到关键词的查询结果，然后量化关键词和...

【技术保护点】
1.一种面向中文分词的搜索算法，其特征在于，分为两个阶段：离线构建索引阶段和在线查找阶段；(一)离线构建索引阶段，具体步骤为：(1)由原数据集生成后缀串集合T(S)表示带有分隔符($)和结束符(#)的字符串S所组成的原数据集，其中第i个字符串的索引ID为i，1≤i≤n，假设WBS表示从分隔符处开始的后缀串，NWBS表示不从分隔符处开始的后缀串；由T(S)生成带索引ID的后缀串集合T(WBS)和T(NWBS)的具体步骤如下：第一步：遍历T(S)中的所有字符串，提取每个字符串的所有后缀串si，构成集合T*(s1),T*(s2)…T*(sn)，其中后缀串是指字符串S从位置i开始到S末尾结束符的一个子串，即若S用C1C2…Cn表示，则CiCi+1…Cn称为S的一个后缀串，1≤i≤n；第二步：剔除集合T*(s1),T*(s2)…T*(sn)中所有以分隔符($)或结束符(#)为首的后缀串；第三步：遍历T*(si)中所有后缀串，若后缀串的首字符跟原字符串的首字符相同，或者跟原字符串中分隔符($)后的首字符相同，则在该后缀串末尾添加索引ID后加入至T(WBS)，反之，则在该后缀串末尾添加索引ID后加入...

【技术特征摘要】
1.一种面向中文分词的搜索算法，其特征在于，分为两个阶段：离线构建索引阶段和在线查找阶段；(一)离线构建索引阶段，具体步骤为：(1)由原数据集生成后缀串集合T(S)表示带有分隔符($)和结束符(#)的字符串S所组成的原数据集，其中第i个字符串的索引ID为i，1≤i≤n，假设WBS表示从分隔符处开始的后缀串，NWBS表示不从分隔符处开始的后缀串；由T(S)生成带索引ID的后缀串集合T(WBS)和T(NWBS)的具体步骤如下：第一步：遍历T(S)中的所有字符串，提取每个字符串的所有后缀串si，构成集合T*(s1),T*(s2)…T*(sn)，其中后缀串是指字符串S从位置i开始到S末尾结束符的一个子串，即若S用C1C2…Cn表示，则CiCi+1…Cn称为S的一个后缀串，1≤i≤n；第二步：剔除集合T*(s1),T*(s2)…T*(sn)中所有以分隔符($)或结束符(#)为首的后缀串；第三步：遍历T*(si)中所有后缀串，若后缀串的首字符跟原字符串的首字符相同，或者跟原字符串中分隔符($)后的首字符相同，则在该后缀串末尾添加索引ID后加入至T(WBS)，反之，则在该后缀串末尾添加索引ID后加入至T(NWBS)；(2)对后缀串集合T(WBS)和T(NWBS)分别建立改进后缀树所谓改进后缀树是在传统后缀树的基础上，将每条边上的标识存放到节点中，即把每个节点作为一个存储单元，节点存储信息包括节点标识、结束符子节点指针、分隔符子节点指针、一般子节点指针集和匹配索引ID序列，其中节点标识为结束符、分隔符或一般字符串；对任意后缀串集合T建立改进后缀树的具体步骤如下：第一步：创建一棵只包含一个节点的改进后缀树，该节点的节点标识、所有子节点指针和匹配索引ID序列均为空，把这个节点记为改进后缀树的根节点root；第二步：把后缀串集合T中所有元素依次插入到改进后缀树中；每个后缀串的插入过程都是从根节点出发，寻找插入位置；第三步：递归构造每个节点的匹配索引ID序列；由前可知，结束符节点的匹配索引ID序列在全部后缀串插入完成时已经构造完成；只需按公式(1)构造所有非结束符节点N(s)的匹配索引ID序列Q(N(s))：Q(N(s))＝Q(N(s#))Q(N(s$))Q(N(s*))#(1)其中，N(s#)，N(s$)和N(s*)分别表示节点N(s)的结束符子节点，分隔符子节点和所有一般子节点；(二)在线查找阶段，具体步骤为：(1)匹配点查询对任意节点N(s)，从N(s)出发，按公式(2)查询字符...

【专利技术属性】
技术研发人员：金城，陶仕谦，唐士芳，吴渊，张玥杰，冯瑞，薛向阳，
申请(专利权)人：复旦大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人