【技术实现步骤摘要】
基于项集权值比剪枝和关联规则前件扩展的文本检索方法
本专利技术属于信息检索领域,具体是基于项集权值比剪枝和关联规则前件扩展的文本检索方法。
技术介绍
当前,随着互联网技术和数字经济的发展,网络信息资源迅猛增长,成为了隐含巨大经济价值和研究价值的网络大数据。如何高效、准确地从信息的汪洋大海里找到更多所需的信息,一直是信息检索领域研究的热点问题。当前出现的web搜索引擎在一定程度上缓解了人们在互联网检索信息的困难,但是,目前的搜索引擎或者web信息检索系统往往是基于关键词机械式符号匹配的检索,很难避免信息过载和词不匹配等问题,例如,查询词是“电脑”,尽管“计算机”描述的是相同的含义,但是,“电脑”、“计算机”在信息检索系统里被认为是不同的检索词,这样,仅仅含有关键词“计算机”,而不含“电脑”的文档不能被检索出来,这是因为词不匹配的原因。
技术实现思路
为了解决上述问题,本专利技术提出基于项集权值比剪枝和关联规则前件扩展的文本检索方法,采用项集权值比进行项集剪枝技术,挖掘效率得到提高,采用关联规则前件扩展方法,能挖掘出与原查询相关的扩展词,可以解决信息检索系统中词不匹配问题 ...
【技术保护点】
1.基于项集权值比剪枝和关联规则前件扩展的文本检索方法,其特征在于,包括下列步骤:(1)用户查询首次检索文档集得到初检前列文档;(2)用户对初检前列文档进行相关性判断得到初检相关文档,构建初检用户相关文档集;(3)预处理初检用户相关文档集,构建文档索引库和特征词库:(4)挖掘文本特征词1_频繁项集L1,具体步骤如下:(4.1)从特征词库中提取特征词作为1_候选项集C1;(4.2)扫描文档索引库,统计文本文档总数n和统计C1的项集权值w[C1];(4.3)计算最小权值支持阈值MWS;所述MWS计算公式如式(2)所示:MWS=n×ms (2)式(2)中,所述ms为最小支持度阈 ...
【技术特征摘要】
1.基于项集权值比剪枝和关联规则前件扩展的文本检索方法,其特征在于,包括下列步骤:(1)用户查询首次检索文档集得到初检前列文档;(2)用户对初检前列文档进行相关性判断得到初检相关文档,构建初检用户相关文档集;(3)预处理初检用户相关文档集,构建文档索引库和特征词库:(4)挖掘文本特征词1_频繁项集L1,具体步骤如下:(4.1)从特征词库中提取特征词作为1_候选项集C1;(4.2)扫描文档索引库,统计文本文档总数n和统计C1的项集权值w[C1];(4.3)计算最小权值支持阈值MWS;所述MWS计算公式如式(2)所示:MWS=n×ms(2)式(2)中,所述ms为最小支持度阈值,n为文档索引库的文本文档总数;(4.4)如果w[C1]≥MWS,则C1就文本特征词1_频繁项集L1,添加到频繁项集集合FIS;(5)挖掘文本特征词2_频繁项集L2,具体步骤如下:(5.1)采用Aproiri连接方法将文本特征词1_频繁项集L1自连接得到多个2_候选项集C2;(5.2)剪枝不含原查询词项的2_候选项集C2;(5.3)对余下的2_候选项集C2,扫描文档索引库分别统计C2的项集权值w[C2];(5.4)如果w[C2]≥MWS,则C2就文本特征词2_频繁项集L2,添加到频繁项集集合FIS;(6)挖掘文本特征词k_频繁项集Lk,所述k≥2;具体步骤如下:(6.1)采用Aproiri连接方法将文本特征词(k-1)_频繁项集Lk-1自连接得到多个k_候选项集Ck=(i1,i2,…,ik),所述k≥2;(6.2)扫描文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到所述最大的项目权值wm对应的项目im,所述m∈(1,2,…,k);(6.3)如果所述项目im对应的1_项集(im)是非频繁的,或者wm<MWS,则剪枝所述Ck;(6.4)对于余下的Ck,如果w[Ck]≥MWS×k并且wmin[(iq)]≥minRate×wmax[(ip)],那么,该Ck就是文本特征词k_频繁项集Lk,添加到频繁项集集合FIS;所述minRate为最小项集权值比阈值;所述wmin[(iq)]为最小项目的项集权值,wmax[(ip)]为最大项目的项集权值,wmin[(iq)]和wmax[(ip)]的含义如下:假设k_候选项集Ck=(i1,i2,…ik),Ck的各个项目i1,i2,…,ik单独作为1_项集时对应为(i1),(i2),…,(ik),在文档索引库中统计1_项集(i1),(i2),…,(ik)的项集权值分别为w[(i1)],w[(i2)],…,w[(ik)],将w[(i1)],w[(i2)],…,w[(ik)]中最小的项集权值称为最小项目的项集权值,记为wmin[(iq)],对应的1_项集记为(iq),将与Ck对应的所述项目iq称为Ck的最小项目,同理,将w[(i1)],w[(i2)],…,w[(ik)]中最大的项集权值称为最大项目的项集权值,记为wmax[(ip)],对应...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。