一种基于卷积神经网络的跨领域语义信息检索方法技术

技术编号：17667621 阅读：55 留言：0更新日期：2018-04-11 05:56

本发明专利技术涉及一种基于卷积神经网络的跨领域语义信息检索方法，属计算机自然语言处理领域。本发明专利技术通过词向量SVM进行短文本分类，降低无效检索域从而提高近似句的准确率，再将分类后的文本拼接成向量矩阵放入卷积神经网络，将卷积神经网络的最后一层用转换层进行近似句的检索计算。最终模型提高了近似语义检索的准确率。

A cross domain semantic information retrieval method based on convolution neural network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于卷积神经网络的跨领域语义信息检索方法
本专利技术涉及一种基于卷积神经网络的跨领域语义信息检索方法，属计算机自然语言处理领域。
技术介绍
当前基于关键词检索的方式已被广泛认知，但命中率较低。命中率较低的原因包括基于搜索引擎的关键词检索需要大量语料，但许多场景下，小规模或中等规模的语料很难达到理想的效果，且Zhao(<ChineseJournalofComputers>,2005)提出关键词匹配计算方法将词语看成是孤立的元素，相互之间没有联系是不合理的。目前，Zhao(<全国第八届计算语言学联合学术会议>,2005)将句子相似度的研究方法可以归纳为：1)基于词特征的句子相似度计算、2)基于词义特征的句子相似度计算、3)基于句法分析特征的句子相似度计算。词特征方法进行句相似度计算一般依靠构建向量空间，但这类方法的明显缺陷是特征稀疏，用在稍大点的语料上效果不理想。为了解决特征稀疏问题，Wang(<arXiv.org>,2006)提出的基于词汇分解与组合的句子相似度计算，其将对比的句...
一种基于卷积神经网络的跨领域语义信息检索方法

【技术保护点】
一种基于卷积神经网络的跨领域语义信息检索方法，其特征在于：所述方法具体步骤如下：Step1、首先对知识库中被检索的信息进行预处理，然后对处理后的信息进行句向量表示，其次利用LibSVM的SVM分类器对句向量进行分类训练，得到SVM分类模型，利用分类模型对用户检索信息进行分类，得到用户检索信息的类别；Step2、将用户检索信息转换成句特征矩阵，根据Step1中确定的类别，使用对应的近似语义卷积神经网络检索模型进行处理，近似语义卷积神经网络检索模型转换层会将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘，根据点乘结果得到用户检索信息与被检索信息的相似度值C，根据相似度值由大到小排序，得...

【技术特征摘要】
1.一种基于卷积神经网络的跨领域语义信息检索方法，其特征在于：所述方法具体步骤如下：Step1、首先对知识库中被检索的信息进行预处理，然后对处理后的信息进行句向量表示，其次利用LibSVM的SVM分类器对句向量进行分类训练，得到SVM分类模型，利用分类模型对用户检索信息进行分类，得到用户检索信息的类别；Step2、将用户检索信息转换成句特征矩阵，根据Step1中确定的类别，使用对应的近似语义卷积神经网络检索模型进行处理，近似语义卷积神经网络检索模型转换层会将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘，根据点乘结果得到用户检索信息与被检索信息的相似度值C，根据相似度值由大到小排序，得到与用户检索信息相似的被检索信息列表；Step3、根据Step2中被检索信息列表中与用户检索信息的相似度值，筛选出最相似的p个待重排被检索信息，对p个待重排被检索信息的原始特征进行相似度C1计算后再重排处理，得到重排后的p个推荐信息；Step4、将Step3中生成的p个推荐信息提供给用户，记录用户的点击行为；当用户对信息满意度进行评分时，记录评分数值；Step5、将Step4中获取的用户点击行为和评分数值用于下一次模型更新训练，以便更好地实现信息检索。2.根据权利要求1所述的基于卷积神经网络的跨领域语义信息检索方法，其特征在于：所述步骤Step1的具体步骤如下：Step1.1、输入知识库中被检索的信息，对被检索的信息进行分词和过滤停用词处理，将过滤后的每个词映射成一个词向量，再将词向量相加形成被检索信息的句向量；Step1.2、利用LibSVM的SVM分类器对步骤Step1.1中生成的被检索信息的句向量进行分类训练，得到SVM分类模型；Step1.3、利用Step1.2中训练好的SVM分类模型对用户检索信息进行分类，得到用户检索信息所属类别。3.根据权利要求1所述的基于卷积神经网络的跨领域语义信息检索方法，其特征在于：所述步骤Step2的具体步骤如下：Step2.1、将用户检索信息转换成句特征矩阵；Step2.2、根据Step1.3中用户检索信息的类别，使用相应类别的近似语义卷积神经网络检索模型进行处理，得到用户检索信息的语义特征表示；Step2.3、通过聚类方法处理，得到被检索信息的聚类特征；Step2.4、近似语义卷积神经网络检索模型将Step2.2中用户检索信息的语义特征和step2.3中被检索...

【专利技术属性】
技术研发人员：黄青松，王兆凯，李帅彬，刘利军，冯旭鹏，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人