基于模式挖掘与词向量相似度计算的中文查询扩展方法技术

技术编号：26259346 阅读：47 留言：0更新日期：2020-11-06 17:53

本发明专利技术提出了一种基于模式挖掘与词向量相似度计算的中文查询扩展方法，其首先通过用户查询检索中文文档集得到初检文档，对初检文档集进行词向量语义学习训练得到包括查询词项和非查询词项的词向量集；然后采用基于Copulas函数的关联扩展词挖掘方法对伪相关反馈文档集挖掘扩展词，建立关联扩展词集；在词向量集中进行两种向量余弦相似度运算，得到词嵌入扩展词集和词向量关联扩展词集，最后将词嵌入扩展词集和词向量关联扩展词集并集融合得到最终扩展词，最终扩展词和原查询组合为新查询，再次检索文档集，实现查询扩展。本发明专利技术将关联模式挖掘与词向量学习融合，可挖掘出高质量扩展词，提高信息检索性能，具有较好应用价值和推广前景。

全部详细技术资料下载

【技术实现步骤摘要】
基于模式挖掘与词向量相似度计算的中文查询扩展方法
本专利技术涉及一种基于模式挖掘与词向量相似度计算的中文查询扩展方法，属于信息检索

技术介绍
查询扩展指的是对原查询权重进行修改或者添加与原查询相关的语词，弥补用户查询信息不足，改善信息检索系统查全率和查准率，查询扩展是信息检索领域中解决查询主题漂移和词不匹配问题的核心技术之一。近十几年来，随着网络技术的发展以及大数据时代的到来，如何从海量的大数据资源中精准检索到用户的所需信息，是国内外学术界和产业界关注的焦点，使得查询扩展技术得到较大的发展，一些新的查询扩展方法被提出，例如，Liu等(LiuC,QiR,LiuQ.Queryexpansiontermsbasedonpositiveandnegativeassociationrules[C].ProceedingsoftheThirdinternationalconferenceoninformationscienceandtechnology(ICIST),2013IEEE,Yangzhou,Jiangsu,China,2013本文档来自技高网...

【技术保护点】
1.一种基于模式挖掘与词向量相似度计算的中文查询扩展方法，其特征在于，包括下列步骤：/n步骤1.用户查询检索中文文档集得到初检文档集；/n步骤2.对初检文档集进行中文分词和去除中文停用词，利用深度学习工具对初检文档集进行词向量语义学习训练得到包括查询词项和非查询词项的词向量集；/n步骤3.计算并累加非查询词项与全部查询词项的向量余弦相似度，根据降序排列的相似度值提取前列非查询词项作为词嵌入扩展词，得到词嵌入扩展词集，具体步骤如下：/n(3.1)在词向量集中，计算非查询词项(cet

【技术特征摘要】
1.一种基于模式挖掘与词向量相似度计算的中文查询扩展方法，其特征在于，包括下列步骤：
步骤1.用户查询检索中文文档集得到初检文档集；
步骤2.对初检文档集进行中文分词和去除中文停用词，利用深度学习工具对初检文档集进行词向量语义学习训练得到包括查询词项和非查询词项的词向量集；
步骤3.计算并累加非查询词项与全部查询词项的向量余弦相似度，根据降序排列的相似度值提取前列非查询词项作为词嵌入扩展词，得到词嵌入扩展词集，具体步骤如下：
(3.1)在词向量集中，计算非查询词项(cet1,cet2,…,ceti)与原查询词项集合Q中各查询词项(q1,q2,…,qj)的向量余弦相似度VecCos(cetl,qs)，其中，1≤l≤i，1≤s≤j；
(3.2)累加非查询词项和原查询词项集合Q中各查询词项的向量余弦相似度得到总的相似度值，作为非查询词项与原查询词项集合Q的向量余弦相似度VecSim(cetl,Q)；
(3.3)对向量余弦相似度VecSim(cetl,Q)排降序，根据所排的降序提取前列Vm个非查询词项作为原查询词项集合Q的词嵌入扩展词，构建词嵌入扩展词集WEETS，并计算词嵌入扩展词权值w(vetl)，然后，转入步骤4；
步骤4.从初检文档集中提取前列m篇初检文档作为伪相关反馈文档，构建伪相关反馈文档集，对初检伪相关反馈文档集进行中文分词、去除中文停用词和提取特征词的预处理，并计算特征词权值，最后构建伪相关反馈中文文档库和中文特征词库；
步骤5.采用基于Copulas函数的扩展词挖掘方法对伪相关反馈文档集挖掘关联扩展词AET，建立关联扩展词集；所述基于Copulas函数的关联扩展词挖掘方法具体步骤如下：
(5.1)挖掘1_频繁项集L1：从中文特征词库中提取特征词得到1_候选项集C1，并计算基于Copulas函数的1_候选项集C1支持度Copulas_Support(C1)，如果Copulas_Support(C1)不低于最小支持度阈值ms，则将C1作为1_频繁项集L1，并添加到频繁项集集合FIS；
(5.2)挖掘k_频繁项集Lk：由(k-1)_频繁项集Lk-1自连接产生k_候选项集Ck，所述k≥2；当k＝2时，如果该Ck不含有原查询词项，则删除该Ck，如果该Ck含有原查询词项，则留下该Ck，然后，留下的Ck计算k_候选项集Ck的支持度Copulas_Support(Ck)；当k＞2时，则Ck直接计算k_候选项集Ck的支持度Copulas_Support(Ck)；如果Copulas_Support(Ck)不低于ms，则将Ck作为k_频繁项集Lk，并添加到FIS；
(5.3)k加1后转入步骤(5.2)继续顺序执行其后步骤，直到产生所述Lk为空集，则频繁项集挖掘结束，转入步骤(5.4)；
(5.4)从FIS中任意取出Lk，所述k≥2；
(5.5)从Lk中提取真子集项集Lq和LAet，计算关联规则Lq→LAet基于Copulas函数的置信度Copulas_Confidence(Lq→LAet)，且Lq∪LAet＝Lk，所述LAet为不含查询词项的真子集项集，所述Lq为含查询词项的真子集项集；
(5.6)挖掘关联规则Lq→LAet：提取Copulas_Confidence(Lq→LAet)不小于最小置信度阈值mc的关联规则Lq→LAet加入到关联规则集AR(AssociationRule)，然后，转入步骤(5.5)，从Lk中重新提取其他的真子集项集Lq和LAet，再顺序进行其后步骤，如此循环，直到Lk的所有真子集项集当且仅当都被取出一次为止，这时转入如步骤(5.4)，进行新一轮关联规则模式挖掘，从FIS中再取出任意其他Lk，再顺序进行其后步骤，如此循环，直到FIS中所有k_频繁项集Lk当且仅当都被取出一次为止，这时关联规则模式挖掘结束，转入如下步骤(5.7)；
(5.7)从关联规则集AR中提取关联规则后件LAet的特征词作为关联扩展词，得到关联扩展词集AETS，并计算关联扩展词权值wAet，然后，转入步骤6；
步骤6.计算关联扩展词与原查询的向量余弦相似度，提取所述向量相似度值不低于最小相似度阈值的关联扩展词，得到词向量关联扩展词集，具体步骤如下：
(6.1)在词向量集中，计算关联扩展词(Aet1,Aet2,..,Aets)与原查询词项集合Q(所述Q＝(q1,q2,…,qj))中各查询词项(q1,q2,…,qj)的向量余弦相似度VecCos(Aetl,qs)，其中，1≤l≤i，1≤s≤j；
(6.2)累加关联扩展词与各个查询词的向量相似度值得到的相似度总和作为该关联扩展词与原查询词项集合Q的向量余弦相似度值VecSim(Aetl,Q)；
(6.3)提取向量相似度VecSim(Aetl,Q)值不低于最小相似度阈值minVSim的关联扩展词作为词向量关联扩展词，得到词向量关联扩展词集WEAETS，并计算词向量关联扩展词权值w(Avetl)；词向量关联扩展词权值w(Avetl)由关联扩展词权值wAet和所述关联扩展词与原查询词项集合Q的向量余弦相似度值VecSim(Avetl,Q)组成；
步骤7.将词嵌入扩展词集WEETS和词向量关联扩展词集WEAETS并集融合，得到最终扩展词FETS(FinalExpansionTermSet)，并计算最终扩展词权值w(ETl)；
步骤8.最终扩展词和原查询组合为新查询，再次检索文档...

【专利技术属性】
技术研发人员：黄名选，
申请(专利权)人：广西财经学院，
类型：发明
国别省市：广西;45

全部详细技术资料下载我是这个专利的主人