【技术实现步骤摘要】
基于词嵌入与关联模式并集扩展的文本检索方法
本专利技术涉及一种基于词嵌入与关联模式并集扩展的文本检索方法,属于信息检索
技术介绍
在信息检索领域中,查询扩展是解决查询主题漂移和词不匹配问题的核心技术之一,查询扩展指的是对原查询权重进行修改或者添加与原查询相关的语词,弥补用户查询信息不足,改善信息检索系统查全率和查准率。近十几年来,随着网络技术的发展以及大数据时代的到来,基于查询扩展的信息检索方法得到了国内外学者关注和研究,一些有效的信息检索方法被提出,例如,许建豪提出的(许建豪.采用向量空间模型的个性化信息检索方法[J].华侨大学学报(自然科学版),2016,37(02):53-56.)基于向量空间模型的个性化信息检索方法,斯日古楞等(斯日古楞,林民,田长波.融合主题与语言模型的蒙古文信息检索方法研究[J].计算机应用研究,2016,33(012):3676-3680.)提出的蒙古文信息检索方法,Latiri等(见文献:LatiriC,HaddadH,HamrouniT.Towardsaneffective ...
【技术保护点】
1.一种基于词嵌入与关联模式并集扩展的文本检索方法,其特征在于,包括下列步骤:/n步骤1.首次检索:用户查询检索原始中文文档集得到初检文档集;/n步骤2.进行词嵌入与关联模式并集融合扩展,具体步骤如下:/n(2.1)从初检文档集中提取前列m篇初检文档构建伪相关反馈文档集;/n(2.2)利用基于Copulas理论的扩展词挖掘方法对伪相关反馈文档集挖掘规则后件扩展词,建立后件扩展词集,所述基于Copulas理论的扩展词挖掘方法具体步骤如下:/n(2.2.1)从初检文档集中提取前列m篇初检文档作为伪相关反馈文档,构建伪相关反馈文档集,对初检伪相关反馈文档集进行中文分词、去除中文停 ...
【技术特征摘要】
1.一种基于词嵌入与关联模式并集扩展的文本检索方法,其特征在于,包括下列步骤:
步骤1.首次检索:用户查询检索原始中文文档集得到初检文档集;
步骤2.进行词嵌入与关联模式并集融合扩展,具体步骤如下:
(2.1)从初检文档集中提取前列m篇初检文档构建伪相关反馈文档集;
(2.2)利用基于Copulas理论的扩展词挖掘方法对伪相关反馈文档集挖掘规则后件扩展词,建立后件扩展词集,所述基于Copulas理论的扩展词挖掘方法具体步骤如下:
(2.2.1)从初检文档集中提取前列m篇初检文档作为伪相关反馈文档,构建伪相关反馈文档集,对初检伪相关反馈文档集进行中文分词、去除中文停用词和提取特征词的预处理,并计算特征词权值,最后构建伪相关反馈中文文档库和中文特征词库;
(2.2.2)挖掘k_频繁项集:利用基于Copulas理论框架特征词关联模式支持度CSupport挖掘伪相关反馈文档集中含有原查询词项的k_频繁项集,所述k≥1,具体步骤如下:
(2.2.2.1)提取1_候选项集C1:从中文特征词库中提取特征词作为1_候选项集C1;
(2.2.2.2)挖掘1_频繁项集L1:计算1_候选项集C1的支持度CSupport(C1),如果CSupport(C1)不低于最小支持度阈值ms,则将C1作为1_频繁项集L1,并添加到频繁项集集合FIS;
(2.2.2.3)产生k_候选项集Ck:将(k-1)_频繁项集Lk-1自连接生成k_候选项集Ck,所述k≥2;
(2.2.2.4)对2_候选项集C2剪枝:当挖掘到2_候选项集C2时,如果该C2不含有原查询词项,则删除该C2,如果该C2含有原查询词项,则留下该C2,然后,留下的C2转入步骤(2.2.2.5);当挖掘到k_候选项集Ck,所述k≥3,则直接转入步骤(2.2.2.5);
(2.2.2.5)挖掘k_频繁项集Lk:计算k_候选项集Ck的支持度CSupport(Ck),如果CSupport(Ck)不低于ms,则将Ck作为k_频繁项集Lk,并添加到FIS;
(2.2.2.6)k加1后转入步骤(2.2.2.3)继续顺序执行其后步骤,直到产生所述Lk为空集,则频繁项集挖掘结束,转入步骤(2.2.3);
(2.2.3)挖掘关联规则模式:利用基于Copulas理论框架特征词关联模式置信度CConfidence从频繁项集中挖掘前件含有原查询词项项集的关联规则模式,具体步骤如下:
(2.2.3.1)从FIS中任意取出Lk,所述k≥2;
(2.2.3.2)从Lk中提取真子集项集LQ和LEt,计算所述关联规则LQ→LEt的置信度CConfidence(LQ→LEt),所述所述LEt为不含查询词项的真子集项集,所述LQ为含查询词项的真子集项集;
(2.2.3.3)提取CConfidence(LQ→LEt))不小于最小置信度阈值mc的关联规则LQ→LEt加入到关联规则集AR(AssociationRule),然后,转入步骤(2.2.3.2),从Lk中重新提取其他的真子集项集LQ和LEt,再顺序进行其后步骤,如此循环,直到Lk的所有真子集项集当且仅当都被取出一次为止,这时转入如步骤(2.2.3.1),进行新一轮关联规则模式挖掘,从FIS中再取出任意其他Lk,再顺序进行其后步骤,如此循环,直到FIS中所有k_频繁项集Lk当且仅当都被取出一次为止,这时关联规则模式挖掘结束,转入如下步骤(2.2.4);
(2.2.4)提取规则后件扩展词:从关联规则集AR中提取关联规则后件LEt作为规则后件扩展词,得到规则后件扩展词集RCETS,并计算规则后件扩展词权值wRcet,然后,转入步骤(2.3);
(2.3)对全部初检文档进行词嵌入语义学习训练,得到初检文档词向量集,具体描述如下:
对初检文档集进行中文分词和去除中文停用词,利用深度学习工具对对初检文档集进行词嵌入语义学习训练,得到初检文档词向量集;所述初检文档词向量集含有各个查询词项词向量和候选扩展词词向量;
(2.4)计算每个查询词项与所有候选扩展词的向量余弦相似度,提取各个查询词项对应的前列候选扩展词作为查询词项词向量扩展词,得到查询词项词向量扩展词集,具体步骤如下:
(2.4.1)在初检文档词向量集中,计算原查询词项集合Q(所述Q=(q1,q2,…,qj))中每个查询词项(q1,q2,…,qj)与所有候选扩展词((cet1,cet2,…,ceti))的向量余弦相似度Cos(qj,cetl),其中,1≤l≤i;
(2.4.2)降序排列向量余弦相似度值Cos(qj,cetl),得到各个查询词项(q1,q2,…,qj)的查询词项词向量候选扩展词集及其向量相似度值;
(2.4.3)根据降序排列向量余弦相似度值Cos(qj,cetl)的顺序,提取原查询词项集合Q中各个查询词项(q1,q2,…,qj)的前列Vn个查询词项的词向量候选扩展词作为查询词项词向量扩展词,共得到j×Vn个词嵌入扩展词(q1vet1,q1vet2,…,q1vetVn,…,qjvetVn),去除重复词项后,得到查询词项词向量扩展词集WEETS,并计算查询词项词向量扩展词权值w(qveti),然后转入步骤(2.5);
(2.5)后件扩展词集...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。