查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法技术

技术编号:26259352 阅读:36 留言:0更新日期:2020-11-06 17:53
本发明专利技术提出了一种查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法,其利用深度学习工具对对初检文档集进行词嵌入语义学习训练,得到词向量集,计算每个查询词项与所有非查询词项的向量余弦相似度并降序排列,提取前列非查询词项作为查询词项词嵌入扩展词,得到查询词项词嵌入扩展词集,然后利用基于Copulas理论的统计扩展词挖掘方法对伪相关反馈文档集挖掘统计扩展词,建立统计扩展词集,最后将查询词项词嵌入扩展词集和统计扩展词集进行并集得到最终扩展词,最终扩展词和原查询组合为新查询,再次检索文档集,实现查询扩展。本发明专利技术将查询词嵌入扩展词和统计扩展词并集融合,能挖掘出与原查询相关的高质量扩展词,提高和改善文本信息检索性能。

【技术实现步骤摘要】
查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法
本专利技术涉及一种查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法,属于信息检索

技术介绍
在自然语言处理中,查询扩展是解决信息检索领域中查询主题漂移和词不匹配问题的核心技术之一,查询扩展指的是对原查询权重进行修改或者添加与原查询相关的语词,弥补用户查询信息不足,改善信息检索系统查全率和查准率。其核心问题是扩展词的来源及其扩展模型的设计。近十几年来,随着网络技术的发展以及大数据时代的到来,如何从海量的大数据资源中精准检索到用户的所需信息,是国内外学术界和产业界关注的焦点,查询扩展作为解决这类问题的核心技术一直深受国内外学者的重视和研究,一些查询扩展方法被提出,例如,Latiri等(LatiriC,HaddadH,HamrouniT.Towardsaneffectiveautomaticqueryexpansionprocessusinganassociationruleminingapproach[J].journalofintelligentinformationsyst本文档来自技高网...

【技术保护点】
1.一种查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法,其特征在于,包括下列步骤:/n步骤1.构建初检文档集:中文用户查询检索原始中文文档集得到初检文档集;/n步骤2.产生初检文档词向量集:对初检文档集进行中文分词和去除中文停用词,利用深度学习工具对对初检文档集进行词嵌入语义学习训练,得到初检文档词向量集;所述初检文档词向量集含有各个查询词项词向量和非查询词项词向量;/n所述深度学习工具是指Google开源词向量工具word2vec的Skip-gram模型;/n步骤3.产生查询词项词嵌入扩展词集:计算每个查询词项与所有非查询词项的向量余弦相似度,降序排列向量余弦相似度,提取各个查询词项对应...

【技术特征摘要】
1.一种查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法,其特征在于,包括下列步骤:
步骤1.构建初检文档集:中文用户查询检索原始中文文档集得到初检文档集;
步骤2.产生初检文档词向量集:对初检文档集进行中文分词和去除中文停用词,利用深度学习工具对对初检文档集进行词嵌入语义学习训练,得到初检文档词向量集;所述初检文档词向量集含有各个查询词项词向量和非查询词项词向量;
所述深度学习工具是指Google开源词向量工具word2vec的Skip-gram模型;
步骤3.产生查询词项词嵌入扩展词集:计算每个查询词项与所有非查询词项的向量余弦相似度,降序排列向量余弦相似度,提取各个查询词项对应的前列Vn个非查询词项作为查询词项词嵌入扩展词,得到查询词项词嵌入扩展词集,具体步骤如下:
(3.1)在词向量集中,计算原查询词项集合Q(所述Q=(q1,q2,…,qj))中每个查询词项(q1,q2,…,qj)与所有非查询词项的向量余弦相似度qjsiml,其中,1≤l≤i;
所述qjsiml,的计算公式,如式(1)所示:



式(1)中,vwecetl表示第l个非查询词项wecetl的词向量值,vqs表示第s个查询词qs的词向量值;
(3.2)降序排列向量余弦相似度值qjsiml,得到原查询词项集合Q的各个查询词项(q1,q2,…,qj)的词嵌入候选扩展词及其向量相似度值,如式(2)所示:



式(2)中,qjvetl表示查询词项qj的第l个查询词项词嵌入候选扩展词,qjsiml表示查询词项qj与第l个查询词项词嵌入候选扩展词的向量余弦相似度值;
(3.3)根据降序排列向量余弦相似度值qjsiml的顺序,提取原查询词项集合Q中各个查询词项(q1,q2,…,qj)的前列Vn个查询词项的词嵌入候选扩展词作为查询词项词嵌入扩展词,共得到j×Vn个词嵌入扩展词(q1vet1,q1vet2,…,q1vetVn,…,qjvetVn),去除重复词项后,得到查询词项词嵌入扩展词集WEETS_QT,如式(3)所示,然后转入步骤4;
WEETS_QT={vqet1,vqet2,...,vqetr}
(vqeti∈(q1vet1,q1vet2,...,q1vetVn,...,qjvetVn),1≤i≤r)(3)
式(3)中,vqetr表示去除重复词项后得到的第r个查询词项词嵌入扩展词;
查询词项词嵌入扩展词权值w(qveti)如式(4)所示,其中,1≤i≤r;



式(4)表明,查询词项词嵌入扩展词权值为该查询词项与所有词嵌入候选扩展词的向量余弦相似度值,如果存在多个相同的查询词项词嵌入扩展词,则累加它们的向量余弦相似度值作为该查询词项词嵌入扩展词的权值;
步骤4.产生统计扩展词集:从初检文档集中提取前列m篇伪相关反馈文档,构建伪相关反馈文档集,利用基于Copulas理论的统计扩展词挖掘方法对伪相关反馈文档集挖掘统计扩展词,建立统计扩展词集;所述基于Copulas理论的统计扩展词挖掘方法具体步骤如下:
(4.1)从初检文档集中提取前列m篇初检文档作为伪相关反馈文档,构建伪相关反馈文档集,对初检伪相关反馈文档集进行中文分词、去除中文停用词和提取特征词的预处理,并采用TF-IDF加权技术计算特征词权值,最后构建伪相关反馈中文文档库和中文特征词库;
(4.2)利用Copulas理论框架下融合项频度和权值的特征词关联模式支持度IFWSup和最小支持度阈值ms挖掘伪相关反馈文档集中含有原查询词项的k_频繁项集,所述k≥1,具体步骤如下:
(4.2.1)从中文特征词库中提取特征词作为1_候选项集C1;
(4.2.2)计算1_候选项集C1的支持度IFWSup(C1),如果IFWSup(C1)不低于ms,则将C1作为1_频繁项集L1,并添加到频繁项集集合FIS;
所述支持度IFWSup(C1)的计算公式,如式(5)所示:



式(5)中,表示1_候选项集C1在伪相关反馈中文文档库中出现的频度,Doc_fre表示伪相关反馈中文文档库总文档数...

【专利技术属性】
技术研发人员:黄名选
申请(专利权)人:广西财经学院
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1