【技术实现步骤摘要】
深度学习与扩展词挖掘交集融合的中文查询扩展方法
本专利技术涉及一种深度学习与扩展词挖掘交集融合的中文查询扩展方法,属于信息检索
技术介绍
查询扩展是解决信息检索中查询主题漂移和词不匹配问题的关键技术之一,查询扩展指的是对原查询权重进行修改或者添加与原查询相关的语词,得到比原查询更长的新查询,以便更完整、更准确地描述原查询所隐含的语义或主题,弥补用户查询信息不足,改善信息检索系统检索性能。查询扩展的核心问题是扩展词的来源和扩展模型的设计。随着网络技术的发展和大数据时代的到来,网络用户对信息检索需求越来越多,例如,如何在海量大数据中精准检索到所需信息,使得查询扩展研究成为信息检索领域的热点。近十几年来,学者们从不同的视角和方法对查询扩展模型开展研究,取得丰富的研究成果,其中,基于关联模式挖掘的相关反馈扩展和近年来兴起的基于深度学习的查询扩展受到国内外学者更多关注和讨论。例如,Bouziri等提出基于监督学习的扩展词挖掘(见文献:BouziriA,LatiriC,GaussierEetal.Learningque ...
【技术保护点】
1.一种深度学习与扩展词挖掘交集融合的中文查询扩展方法,其特征在于,包括下列步骤:/n步骤1.对原查询检索中文文档集得到初检文档集,对初检文档集进行中文分词和去除停用词的预处理;/n步骤2.利用深度学习工具对初检文档集进行词嵌入语义学习训练,得到特征词词嵌入向量集,具体步骤如下:/n(2.1)采用深度学习工具对初检伪相关反馈文档集中进行词嵌入语义学习训练,得到初检文档特征词的词嵌入向量集;/n(2.2)在初检文档特征词的词嵌入向量集中,计算各查询词项q
【技术特征摘要】
1.一种深度学习与扩展词挖掘交集融合的中文查询扩展方法,其特征在于,包括下列步骤:
步骤1.对原查询检索中文文档集得到初检文档集,对初检文档集进行中文分词和去除停用词的预处理;
步骤2.利用深度学习工具对初检文档集进行词嵌入语义学习训练,得到特征词词嵌入向量集,具体步骤如下:
(2.1)采用深度学习工具对初检伪相关反馈文档集中进行词嵌入语义学习训练,得到初检文档特征词的词嵌入向量集;
(2.2)在初检文档特征词的词嵌入向量集中,计算各查询词项qi(qi∈Q,Q为原查询词项集合,Q=(q1,q2,…,qn),1≤i≤n))和所有词嵌入候选扩展词(cet1,cet2,…,cetm)的词向量余弦相似度VCos(qi,cetj),其中,1≤j≤m;所述词嵌入候选扩展词是指词嵌入向量集中的那些非查询词项;
(2.3)给定一个最小向量余弦相似度阈值minqvcos,提取其VCos(qi,cetj)≥minqvcos的查询词项qi的词嵌入候选扩展词作为该查询词项qi的词嵌入扩展词(qiet1,qiet2,…,qietp1),将查询词项q1,q2,…,qn的所有词嵌入扩展词组合,去除重复词后,得到原查询词项集合Q的最终词嵌入扩展词集ET_WE,计算词嵌入扩展词的权值wWEET,然后转入步骤3;
步骤3.采用基于Copulas理论的伪相关反馈扩展词挖掘方法挖掘初检伪相关反馈文档集中的规则扩展词,建立规则扩展词集,具体步骤如下:
(3.1)在初检文档集中提取前列m篇初检文档,构建初检伪相关反馈文档集,对初检伪相关反馈文档集进行中文分词、去除中文停用词和提取特征词的预处理,并计算特征词权值,最后构建伪相关反馈中文文档库和中文特征词库;
(3.2)将中文特征词库中的特征词作为1_候选项集C1;
(3.3)计算C1的基于Copulas理论的支持度CSup(C1),如果CSup(C1)≥最小支持度阈值ms,则将C1作为1_频繁项集L1,并添加到频繁项集集合FIS;
(3.4)采用自连接方法将(k-1)_频繁项集Lk-1自连接得到k_候选项集Ck,所述k≥2;
(3.5)当挖掘到2_候选项集C2时,如果该C2不含有原查询词项,则删除该C2,如果该C2含有原查询词项,则留下该C2,然后,留下的C2转入步骤(3.6);当挖掘到k_候选项集Ck,所述k≥3时,则直接转入步骤(3.6);
(3.6)计算Ck的基于Copulas理论的支持度CSup(Ck),如果CSup(Ck)≥ms,则该Ck就是k_频繁项集Lk,添加到FIS,然后,转入步骤(3.7),否则,直接转入步骤(3.7);
(3.7)k加1后转入步骤(3.4)继续顺序执行其后步骤,直到所述Lk为空集,则频繁项集挖掘结束,转入步骤(3.8);
(3.8)从FIS中任意取出k_频繁项集Lk,所述k≥2;
(3.9)提取Lk的真子集项集Etj和Qi,且Qi∪Etj=Lk,所述Etj为不含查询词项的真子集项集,所述Qi为含查询词项的真子集项集,所述Q为原查询词项集合;
(3.10)计算基于Copulas理论的关联规则Qi→Etj的置信度CConf(Qi→Etj),如果CConf(Qi→ETj)≥最小置信度阈值mc,则将Qi→Etj加入到关联规则集AR,然后,转入步骤(3.9),从Lk中重新提取其他的真子集项集Etj和Qi,再顺序进行其后步骤,如此循环,直到Lk的所有真子集项集当且仅当都被取出一次为止,这时转入如步骤(3.8),进行新一轮关联规则模式挖掘,从FIS中再取出任意其他Lk,再顺序进行其后步骤,如此循环,直到FIS中所有k_频繁项集Lk当且仅当都被取出一次为止,这时关联规则模式挖掘结束,转入如下步骤(3.11);
(3.11)从关联规则集AR中提取关联规则后件Etj作为规则扩展词,得到规则扩展词集ET_AR,计算规则扩展词权值wEt,然后,转入步骤4;
步骤4.将规则扩展词集和词嵌入扩展词集进行交集融合得到最终扩展词,实现查询扩展,具体步骤是:
(4.1)规则扩展词集ET_AR和词嵌入扩展词集ET...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。