The invention discloses a data segmentation and search method based on word association. The method uses Apriori algorithm to close down to extract the frequent word set of text, selects the appropriate frequent word set of text according to the support degree of activity to segment text, and combines the text word vector space model to help select the separated text to construct an index. Index keyword collection to complete text search. The invention can meet the original design requirements, and the search method is more accurate than other search methods, and the user can customize some algorithm variables to adjust the index, and has good scalability.
【技术实现步骤摘要】
一种基于词语关联的数据分割搜索方法
本专利技术涉及搜索方法优化,具体说是一种基于词语关联的数据分割搜索方法,能够应用于混合云环境中帮助实现更有效的搜索。
技术介绍
云技术将网络和数据挖掘等技术相结合,云环境下存储的信息成本低,已经成为越来越多的企业和用户存储数据的工具。然而云存储在为企业和用户提供服务时也存在着相关问题:存储在云端数据文本数据的非结构化特点和缺乏机器可理解的语义,造成在云存储搜索时不能较精确的搜索到所需文本,云存储搜索准确性主要体现的是针对文本特征信息的提取工作,云存储的搜索方法一直是研究热点。构建分割数据搜索方法涉及两个方面。基于词汇关联的文档分割和索引的构建。关联规则已经在商业等领域取得较为成功的应用。关联词集的获取涉及到Apriori算法,Apriori算法是由RakeshAgrawal在1994年提出的,首先提出了利用支持度对候选频繁集进行剪枝处理的,利用系统的方法控制候选的频繁集的指数增长。主要步骤分为两步完成,第一步产生候选的频繁集,然后对生成候选的频繁词集进行剪枝产生频繁集,反复迭代后,最后找到最多项的频繁集为止。Apriori算法使 ...
【技术保护点】
1.一种基于词语关联的数据分割搜索方法,该方法包括以下具体步骤:步骤1:获取需要建索引文本的分词集合;对一文本,在不考虑词出现的频率和顺序信息情况下,采用基于词典或者基于规则的方法对文本进行分词处理,得到文本的分词集;步骤2:获取文本的频繁词集,进行如下操作:a)设置词wi的c‑频繁词集的支持度为式
【技术特征摘要】
1.一种基于词语关联的数据分割搜索方法,该方法包括以下具体步骤:步骤1:获取需要建索引文本的分词集合;对一文本,在不考虑词出现的频率和顺序信息情况下,采用基于词典或者基于规则的方法对文本进行分词处理,得到文本的分词集;步骤2:获取文本的频繁词集,进行如下操作:a)设置词wi的c-频繁词集的支持度为式其中tfi表示词wi在文本中出现的段数量,c表示频繁词集规模大小;b)通过向下闭合的方法对文本寻找出满足条件的(t-1)-频繁词集,找出该集合中所有只有最后一个词条不同的频繁词集对,合并每对频繁词集对成一个规模为s的频繁词集候选集;c)对于每个s-频繁词集候选集生成其所有规模为(s-1)-频繁词集,如果(s-1)-频繁词集集合不是(t-1)-频繁集词集集合的子集,或者该频繁词集小于其规定的mindown(c)支持度,剔除该频繁词集;d)重复a),b),c)过程,寻找出文本中的所有频繁词集;步骤3:对步骤2)生成的所有频繁词集集合,利用选取分割文本的τopt-频繁词集,式中的tj表示一个频繁词集,t表示频繁词集集合总的数量,count函数用来计算一个频繁词集中的词规模数量;步骤4:利用τopt-频繁词集分割文本来形成子文本集file={fg|g=1,2,...,f},fg表示分割形成的子文本,f是分割后...
【专利技术属性】
技术研发人员:钱仲文,王锋华,张旭东,张建松,黄建平,陈浩,陈俊,纪德良,姜小建,杨少杰,吴翔,琚小明,邢雅菲,张全,于晓蝶,
申请(专利权)人:国网浙江省电力有限公司,浙江华云信息科技有限公司,华东师范大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。