【技术实现步骤摘要】
基于关联规则与词向量融合扩展的文本检索方法
本专利技术涉及一种基于关联规则与词向量融合扩展的文本检索方法,属于信息检索
技术介绍
随着网络技术的发展,数字资源迅猛增长,网络用户如何快速精准找到所需的信息资源,减少查询主题漂移和词不匹配问题以满足网络用户的信息需求,是信息检索领域亟待解决的一个重要问题。在信息检索中使用查询扩展技术可以解决上述问题,查询扩展指的是对原查询权重进行改造,或者添加与原查询语义相关的其他特征词,弥补原查询过于简单导致的语义信息不足,达到改善信息检索性能的目的。近十几年来,学者们从不同的视角对基于查询扩展的信息检索方法开展研究,产生了一些有效的信息检索方法,例如,岳文等提出的一种基于查询扩展和分类的信息检索方法(见文献:岳文,陈治平,林亚平.基于查询扩展和分类的信息检索算法[J].系统仿真学报,2006,018(007):1926-1929,1934.),Vaidyanathan等(VaidyanathanR,DasS,SrivastavaN.QueryExpansionStrategybas ...
【技术保护点】
1.一种基于关联规则与词向量融合扩展的文本检索方法,其特征在于,包括下列步骤:/n步骤1.中文用户查询检索原始中文文档集得到初检文档,构建初检文档集;/n步骤2.用深度学习工具对初检文档集中进行词向量语义学习训练,得到特征词词向量集;/n本专利技术所述深度学习工具是指Google开源词向量工具word2vec的Skip-gram模型;/n步骤3.从初检文档集中提取前列m篇初检文档作为伪相关反馈文档,构建伪相关反馈文档集,对初检伪相关反馈文档集进行中文分词、去除中文停用词和提取特征词的预处理,并采用TF-IDF加权技术计算特征词权值,最后构建伪相关反馈中文文档库和中文特征词库 ...
【技术特征摘要】
1.一种基于关联规则与词向量融合扩展的文本检索方法,其特征在于,包括下列步骤:
步骤1.中文用户查询检索原始中文文档集得到初检文档,构建初检文档集;
步骤2.用深度学习工具对初检文档集中进行词向量语义学习训练,得到特征词词向量集;
本发明所述深度学习工具是指Google开源词向量工具word2vec的Skip-gram模型;
步骤3.从初检文档集中提取前列m篇初检文档作为伪相关反馈文档,构建伪相关反馈文档集,对初检伪相关反馈文档集进行中文分词、去除中文停用词和提取特征词的预处理,并采用TF-IDF加权技术计算特征词权值,最后构建伪相关反馈中文文档库和中文特征词库;
步骤4.采用基于Copulas函数的支持度和置信度对伪相关反馈文档集挖掘候选扩展词,建立候选扩展词集,具体步骤如下:
(4.1)产生1_候选项集C1:从中文特征词库中提取特征词作为1_候选项集C1;
(4.2)产生1_频繁项集L1:计算C1基于Copulas函数的支持度Cop_Sup(C1),提取Cop_Sup(C1)不低于最小支持度阈值ms的C1作为1_频繁项集L1,并添加到频繁项集集合FIS(FrequentItemSet);
所述1_候选项集C1的Cop_Sup(C1)的计算如式(1)所示:
式(1)中,表示1_候选项集C1在伪相关反馈中文文档库中出现的频度,DocNum表示伪相关反馈中文文档库总文档数量,表示1_候选项集C1在伪相关反馈中文文档库中的项集权重,ItemsWeight表示伪相关反馈中文文档库中全体中文特征词的权重累加和;
(4.3)产生k_候选项集Ck:将(k-1)_频繁项集Lk-1自连接生成k_候选项集Ck,所述k≥2;
所述自连接方法采用Apriori算法中给出的候选项集连接方法;
(4.4)2_候选项集C2剪枝:当挖掘到2_候选项集C2时,如果该C2不含有原查询词项,则删除该C2,如果该C2含有原查询词项,则留下该C2,然后,留下的C2转入步骤(4.5);当挖掘到k_候选项集Ck,所述k≥3,则Ck直接转入步骤(4.5);
(4.5)产生k_频繁项集Lk:计算Cop_Sup(Ck),提取Cop_Sup(Ck)不低于ms的Ck作为k_频繁项集Lk,并添加到FIS;
所述Cop_Sup(Ck)的计算如式(2)所示:
式(2)中,表示k_候选项集Ck在伪相关反馈中文文档库中出现的频度,表示k_候选项集Ck在伪相关反馈中文文档库中的项集权重;DocNum和ItemsWeight的定义与式(1)相同;
(4.6)k加1后转入步骤(4.3)继续顺序执行其后步骤,直到产生所述Lk为空集,则频繁项集挖掘结束,转入步骤(4.7);
(4.7)从FIS中任意取出Lk,所述k≥2;
(4.8)从Lk中提取关联规则Qi→Retj,计算关联规则Qi→Retj基于Copulas函数的置信度Cop_Con(Qi→Retj),所述i≥1,j≥1,且Qi∪Retj=Lk,所述Retj为不含查询词项的真子集项集,所述Qi为含查询词项的真子集项集,所述Q为原查询词项集合;
所述Cop_Con(Qi→Retj)的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。