当前位置: 首页 > 专利查询>湘潭大学专利>正文

一种基于扁平化算法的文本搜索方法技术

技术编号:15938901 阅读:41 留言:0更新日期:2017-08-04 21:45
一种基于扁平化算法的文本搜索方法,其特征在于:该方法包括以下步骤:1)获取文本摘要,形成文档集;2)对文档集中的文档进行断句,获得句子集合;3)对句子集合进行分词,获取词集合;4)计算词集合中任意两个词之间的共现次数;5)以词为节点,共现次数为边,构建无向加权图;6)根据用户提交的关键词集合,确定任意一组关键词在无向加权图中的关联关系;7)以扁平化算法计算并还原词与词之间的路径,以图片的形式呈现关联关系。本发明专利技术采用扁平化算法计算并还原路径,以图片的方式呈现关联关系,极大提高了搜索的召回率与准确率。

A text search method based on flat algorithm

A method of text search algorithm based on the flat, which is characterized in that the method comprises the following steps: 1) for text summarization, document set; 2) to punctuate the documents in the document set, get the sentence set; 3) segmentation of the sentence set, get the word set; 4) calculation of co-occurrence between the number of the word set any two words; 5) with the word co-occurrence frequency for the node, edge, construct an undirected weighted graph; 6) according to the user submitted keyword set, to determine the relationship of an arbitrary set of keywords in undirected weighted graph in 7); calculation and reduction path between words in flat algorithm, presents the relationship in the form of pictures. The invention adopts the flattening algorithm to calculate and restore paths, and presents association relations in pictures, which greatly improves the recall rate and accuracy of the search.

【技术实现步骤摘要】
一种基于扁平化算法的文本搜索方法
本专利技术涉及信息检索领域,具体涉及一种基于扁平化算法的文本搜索方法。
技术介绍
当前Web检索主要采用PageRank、Hilltop算法,利用外链进行检索。纯文本检索方面则采用BM25公式,主要在计算查询词与某个文本的相关的功能性。但当前的搜索引擎在召回率和准确率上约为48%,未有超过50%的算法。本申请采用的文本搜索方法基于扁平化算法,借鉴基本的共现关系的频次、权重,图片搜索方法深度优先、广度优先以及剪枝的原理,实现在毫秒级时间内准确查找到若干词之间的关联关系。
技术实现思路
针对上述现有技术中的不足,本专利技术的目的在于提供一种基于扁平化算法的文本搜索方法,该方法采用扁平化算法计算并还原路径,以图片的方式呈现关联关系,极大提高了搜索的召回率与准确率。根据本专利技术的实施方案,提供一种基于扁平化算法的文本搜索方法。一种基于扁平化算法的文本搜索方法,该方法包括以下步骤:1)获取文本摘要,形成文档集D;2)对文档集D中的文档进行断句,di(di∈D),获得句子集合3)对句子集合进行分词,获取词集合4)计算词集合中任意两个词之间的共现次数fc;5)以词Wk为节点,共现次数fc为边,构建无向加权图;6)根据用户提交的关键词集合K={ki|i=1,2,3...n},确定任意一组关键词在无向加权图中的关联关系;7)以扁平化算法计算并还原词与词之间的路径,以图片的形式呈现关联关系。在本专利技术中,步骤2)中所述对文档集D中的文档进行断句的具体操作为:以句号、分号、感叹号、问号和换行符等符号作为分隔符,将文本(即,字符串)分隔成多个子串,即句子。在本专利技术中,步骤3)中所述分词的具体规则为:采用最短路分词算法,设需要分词的字符串为a1,a2,a3...,as;1)以字为顶点建立字图;2)从字符串中匹配出词典中存在的词,在字图中搭建新的边(如图5所示)。3)计算首个字符至结尾字符之间的最短路径。该路径上的顶点即为分词的结果。在本专利技术中,步骤4)中所述计算词集合中任意两个词之间的共现次数具体为:将词集合中任意两个词分组,计算任意一组词在句子集合中的所有句子中共同出现的次数。在本专利技术中,步骤5)中所述构建无向加权图的具体操作为:以词为图的顶点,若词wi和wj出现同一个句子中则表示词wi和词wj所对应的顶点之间存在边,且边的权值为两个词出现在同一句子中的频率fij。在本专利技术中,步骤6)中所述根据用户提交的关键词集合,确定任意一组关键词在无向加权图中的关联关系,按如下进行:关键词集合即指关键词的个数可以是一个或多个,若关键词为1个,则该关键词所在的邻接节点即为该关键词在无向加权图中的关联关系;若关键词≥2个,则需要从无向加权图中搜索该关键词集合中任意两个关键词之间的关联关系。在本专利技术中,若关键词≥2个,所述确定关联关系的具体操作为:1)将用户提交的关键词集合中的其中任意一个关键词Ki扁平化;2)根据无向加权图,确定关键词Ki的第一层扩展,以向量lki,1表示,确定关键词Ki的第二层扩展,以向量lki,2表示,……确定关键词Ki的第n层扩展,以向量lki,n表示;3)关键词Ki扁平化:lki,mix=lki,1|lki,2|……|lki,n;4)重复步骤1)至3),根据无向加权图,将第二个关键词Kj扁平化:lkj,mix=lkj,1|lkj,2|……|lkj,n;5)重复步骤1)至3)的方法,将关键词集合中的所有其它关键词扁平化;6)计算交集:lmix=lki,mix&lkj,mix&……。在本专利技术中,步骤7)中所述还原词与词之间的路径为扁平化还原,具体操作为:1)关键词Ki的第一层还原:lmix&lki,1,得出路径“MKi,1”;2)关键词Ki的第二层还原:lmix&lki,2,得出路径“MKi,2”;……3)关键词Ki的第n层还原:lmix&lki,n,得出路径“MKi,n”;4)重复步骤1)至3)的方法,还原关键词Kj的路径:“MKj,1”、“MKj,2”……“MKj,n”;5)重复步骤1)至3)的方法,还原关键词集合中的所有其它关键词的路径;6)得出关键词集合的还原路径为:“MKi,1”+“MKi,2”+……+“MKi,n”+“MKj,1”+“MKj,2”+……+“MKj,n”。在本专利技术中,步骤1)中所述文本摘要为现有各大数据库中的文本摘要。在本专利技术中,所述关联关系在无向加权图中节点间共现权重越大(或共现次数越多)时联系越紧密。在本专利技术中,所述关联关系在无向加权图中节点间跳跃越少时联系越紧密。在本专利技术中,所述关联关系是通过构建无向加权图来展现的。无向加权图是以词为节点,共现次数为边进行构建。例如,关键词集合为{1,2,3,4,5,6,7},无向加权图如图6所示。所述关联关系在无向加权图中节点间共现权重越大(或共现次数越多)时联系越紧密。其中节点间共现权重是指文本搜索时输入的关键词集合(即相应节点间)的共现次数,节点间共现权重越大则是指文本搜索时输入的关键词集合(即相应节点间)的共现次数越多。同时,在无向加权图中节点间跳跃越少时联系越紧密。其中节点间跳跃度是指文本搜索时输入的关键词集合(即相应节点间)所经过的节点数目,节点间跳跃越少则是指文本搜索时输入的关键词集合(即相应节点间)所经过的节点数目越少,也即相应节点间的经过路径越短。其中,节点间共现权重对关联关系紧密性的影响大于节点间跳跃度,因此文本搜索时优先考虑节点间共现权重。在本专利技术中,扁平化算法可以分为:扁平化和去扁平化两步,扁平化的目的是简化计算。扁平化是指将图的生成树的多层结构压缩至一层的过程。去扁平化是从压缩后单层结构中还原出层次信息。具体过程如下:设生成树如图1和图2,结合所有树的节点根据值进行排序,并去掉值相同的节点,形成字典,在下图实例中字典大小为||D||=9。对单棵树各层节点排序,对所有节点同样排序,图1会得到图3结构。同样图2得到图4结构。将每层以向量表示,向量维度为字典大小,设一层中所包含的节点在字典中对应序号为I,那么向量第I维设为1,其他为0。图3的第0层、1层、2层、混合层的向量表示分别为(1,0,0,0,0,0,0,0,0)、(0,1,1,0,0,0,0,0,0)、(0,0,0,1,1,1,0,0,0)、(1,1,1,1,1,1,0,0,0)。混合层即为扁平化结果。去扁平话,则利用混合层以外的其他层次信息进行还原,如对于某个节点(0,1,0,0,0,0,0,0,0),依次与树1的第0、1、2层的向量计算按位与操作,可以得到与第1层计算结果不为0,则该节点位于树1的第一层。该过程为去扁平化。与现有技术相比,本专利技术具有以下有益效果:1、本专利技术采用扁平化算法计算并还原路径,以图片的方式呈现关联关系,极大提高了搜索的召回率与准确率;2、采用本专利技术所述的文本搜索方法,能在毫秒级时间间隔内准确找到词与词之间的关联关系,减少搜索次数与搜索时间;3、本专利技术以图片的形式呈现关联关系,使得词与词之间的关系脉络化、清晰化。附图说明图1为扁平化算法中扁平化生成树实例示意图一;图2为扁平化算法中扁平化生成树实例示意图二;图3为图1的层节点排序图;图4为图2的层节点排序图;图5为词集合获取过程示意本文档来自技高网...
一种基于扁平化算法的文本搜索方法

【技术保护点】
一种基于扁平化算法的文本搜索方法,其特征在于:该方法包括以下步骤:1)获取文本摘要,形成文档集D;2)对文档集D中的文档进行断句,di(di∈D),获得句子集合

【技术特征摘要】
1.一种基于扁平化算法的文本搜索方法,其特征在于:该方法包括以下步骤:1)获取文本摘要,形成文档集D;2)对文档集D中的文档进行断句,di(di∈D),获得句子集合3)对句子集合进行分词,获取词集合4)计算词集合中任意两个词之间的共现次数fc;5)以词Wk为节点,共现次数fc为边,构建无向加权图;6)根据用户提交的关键词集合K={ki|i=1,2,3...n},确定任意一组关键词在无向加权图中的关联关系;7)以扁平化算法计算并还原词与词之间的路径,以图片的形式呈现关联关系。2.根据权利要求1所述的方法,其特征在于:步骤2)中所述对文档集D中的文档进行断句的具体操作为:以句号、分号、感叹号、问号和换行符作为分隔符,将文本(即,字符串)分隔成多个子串,即句子。3.根据权利要求1或2所述的方法,其特征在于:步骤3)中所述分词的具体规则为:采用最短路分词算法,设需要分词的字符串为a1,a2,a3...,as;1)以字为顶点建立字图;2)从字符串中匹配出词典中存在的词,在字图中搭建新的边;3)计算首个字符至结尾字符之间的最短路径,该路径上的顶点即为分词的结果。4.根据权利要求1-3中任一项所述的方法,其特征在于:步骤4)中所述计算词集合中任意两个词之间的共现次数具体为:将词集合中任意两个词分组,计算任意一组词在句子集合中的所有句子中共同出现的次数。5.根据权利要求1-4中任一项所述的方法,其特征在于:步骤5)中所述构建无向加权图的具体操作为:以词为图的顶点,若词wi和wj出现同一个句子中则表示词wi和词wj所对应的顶点之间存在边,且边的权值为两个词出现在同一句子中的频率fij。6.根据权利要求1-5中任一项所述的方法,其特征在于:步骤6)中所述根据用户提交的关键词集合,确定任意一组关键词在无向加权图中的关联关系具体为:关键词集合即指关键词的个数可以是一个或多个,若关键词为1个,则该关键词所在的邻接节点即为该关键词在无向加权图中的关联关系;若关键词≥2个,则需要从无向加权图...

【专利技术属性】
技术研发人员:欧阳建权周晴宇郑浩刘天明
申请(专利权)人:湘潭大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1