A method of text search algorithm based on the flat, which is characterized in that the method comprises the following steps: 1) for text summarization, document set; 2) to punctuate the documents in the document set, get the sentence set; 3) segmentation of the sentence set, get the word set; 4) calculation of co-occurrence between the number of the word set any two words; 5) with the word co-occurrence frequency for the node, edge, construct an undirected weighted graph; 6) according to the user submitted keyword set, to determine the relationship of an arbitrary set of keywords in undirected weighted graph in 7); calculation and reduction path between words in flat algorithm, presents the relationship in the form of pictures. The invention adopts the flattening algorithm to calculate and restore paths, and presents association relations in pictures, which greatly improves the recall rate and accuracy of the search.
【技术实现步骤摘要】
一种基于扁平化算法的文本搜索方法
本专利技术涉及信息检索领域,具体涉及一种基于扁平化算法的文本搜索方法。
技术介绍
当前Web检索主要采用PageRank、Hilltop算法,利用外链进行检索。纯文本检索方面则采用BM25公式,主要在计算查询词与某个文本的相关的功能性。但当前的搜索引擎在召回率和准确率上约为48%,未有超过50%的算法。本申请采用的文本搜索方法基于扁平化算法,借鉴基本的共现关系的频次、权重,图片搜索方法深度优先、广度优先以及剪枝的原理,实现在毫秒级时间内准确查找到若干词之间的关联关系。
技术实现思路
针对上述现有技术中的不足,本专利技术的目的在于提供一种基于扁平化算法的文本搜索方法,该方法采用扁平化算法计算并还原路径,以图片的方式呈现关联关系,极大提高了搜索的召回率与准确率。根据本专利技术的实施方案,提供一种基于扁平化算法的文本搜索方法。一种基于扁平化算法的文本搜索方法,该方法包括以下步骤:1)获取文本摘要,形成文档集D;2)对文档集D中的文档进行断句,di(di∈D),获得句子集合3)对句子集合进行分词,获取词集合4)计算词集合中任意两个词之间的共现次数fc;5)以词Wk为节点,共现次数fc为边,构建无向加权图;6)根据用户提交的关键词集合K={ki|i=1,2,3...n},确定任意一组关键词在无向加权图中的关联关系;7)以扁平化算法计算并还原词与词之间的路径,以图片的形式呈现关联关系。在本专利技术中,步骤2)中所述对文档集D中的文档进行断句的具体操作为:以句号、分号、感叹号、问号和换行符等符号作为分隔符,将文本(即,字符串)分隔成多个子串 ...
【技术保护点】
一种基于扁平化算法的文本搜索方法,其特征在于:该方法包括以下步骤:1)获取文本摘要,形成文档集D;2)对文档集D中的文档进行断句,di(di∈D),获得句子集合
【技术特征摘要】
1.一种基于扁平化算法的文本搜索方法,其特征在于:该方法包括以下步骤:1)获取文本摘要,形成文档集D;2)对文档集D中的文档进行断句,di(di∈D),获得句子集合3)对句子集合进行分词,获取词集合4)计算词集合中任意两个词之间的共现次数fc;5)以词Wk为节点,共现次数fc为边,构建无向加权图;6)根据用户提交的关键词集合K={ki|i=1,2,3...n},确定任意一组关键词在无向加权图中的关联关系;7)以扁平化算法计算并还原词与词之间的路径,以图片的形式呈现关联关系。2.根据权利要求1所述的方法,其特征在于:步骤2)中所述对文档集D中的文档进行断句的具体操作为:以句号、分号、感叹号、问号和换行符作为分隔符,将文本(即,字符串)分隔成多个子串,即句子。3.根据权利要求1或2所述的方法,其特征在于:步骤3)中所述分词的具体规则为:采用最短路分词算法,设需要分词的字符串为a1,a2,a3...,as;1)以字为顶点建立字图;2)从字符串中匹配出词典中存在的词,在字图中搭建新的边;3)计算首个字符至结尾字符之间的最短路径,该路径上的顶点即为分词的结果。4.根据权利要求1-3中任一项所述的方法,其特征在于:步骤4)中所述计算词集合中任意两个词之间的共现次数具体为:将词集合中任意两个词分组,计算任意一组词在句子集合中的所有句子中共同出现的次数。5.根据权利要求1-4中任一项所述的方法,其特征在于:步骤5)中所述构建无向加权图的具体操作为:以词为图的顶点,若词wi和wj出现同一个句子中则表示词wi和词wj所对应的顶点之间存在边,且边的权值为两个词出现在同一句子中的频率fij。6.根据权利要求1-5中任一项所述的方法,其特征在于:步骤6)中所述根据用户提交的关键词集合,确定任意一组关键词在无向加权图中的关联关系具体为:关键词集合即指关键词的个数可以是一个或多个,若关键词为1个,则该关键词所在的邻接节点即为该关键词在无向加权图中的关联关系;若关键词≥2个,则需要从无向加权图...
【专利技术属性】
技术研发人员:欧阳建权,周晴宇,郑浩,刘天明,
申请(专利权)人:湘潭大学,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。