【技术实现步骤摘要】
一种基于卷积神经网络的跨领域语义信息检索方法
本专利技术涉及一种基于卷积神经网络的跨领域语义信息检索方法,属计算机自然语言处理领域。
技术介绍
当前基于关键词检索的方式已被广泛认知,但命中率较低。命中率较低的原因包括基于搜索引擎的关键词检索需要大量语料,但许多场景下,小规模或中等规模的语料很难达到理想的效果,且Zhao(<ChineseJournalofComputers>,2005)提出关键词匹配计算方法将词语看成是孤立的元素,相互之间没有联系是不合理的。目前,Zhao(<全国第八届计算语言学联合学术会议>,2005)将句子相似度的研究方法可以归纳为:1)基于词特征的句子相似度计算、2)基于词义特征的句子相似度计算、3)基于句法分析特征的句子相似度计算。词特征方法进行句相似度计算一般依靠构建向量空间,但这类方法的明显缺陷是特征稀疏,用在稍大点的语料上效果不理想。为了解决特征稀疏问题,Wang(<arXiv.org>,2006)提出的基于词汇分解与组合的句子相似度计算,其将对比的句子进行向量化,对形成的句子特征矩阵进行分解,用于近似语句计算,但是此方法对环境的实时计算能力要求较高。词义特征的方法主要依赖外源语义词典,如You(<ComputerSystems&Applications>,2013)提出的基于HowNet的信息量计算语义相似度算法,但是这类方法局限性太强,外源语义词典的完整性直接影响着模型的准确率。句法分析特征计算句子相似度的方法,如Li( ...
【技术保护点】
一种基于卷积神经网络的跨领域语义信息检索方法,其特征在于:所述方法具体步骤如下:Step1、首先对知识库中被检索的信息进行预处理,然后对处理后的信息进行句向量表示,其次利用LibSVM的SVM分类器对句向量进行分类训练,得到SVM分类模型,利用分类模型对用户检索信息进行分类,得到用户检索信息的类别;Step2、将用户检索信息转换成句特征矩阵,根据Step1中确定的类别,使用对应的近似语义卷积神经网络检索模型进行处理,近似语义卷积神经网络检索模型转换层会将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘,根据点乘结果得到用户检索信息与被检索信息的相似度值C,根据相似度值由大到小排序,得到与用户检索信息相似的被检索信息列表;Step3、根据Step2中被检索信息列表中与用户检索信息的相似度值,筛选出最相似的p个待重排被检索信息,对p个待重排被检索信息的原始特征进行相似度C1计算后再重排处理,得到重排后的p个推荐信息;Step4、将Step3中生成的p个推荐信息提供给用户,记录用户的点击行为;当用户对信息满意度进行评分时,记录评分数值;Step5、将Step4中获取的用户点击行为和 ...
【技术特征摘要】
1.一种基于卷积神经网络的跨领域语义信息检索方法,其特征在于:所述方法具体步骤如下:Step1、首先对知识库中被检索的信息进行预处理,然后对处理后的信息进行句向量表示,其次利用LibSVM的SVM分类器对句向量进行分类训练,得到SVM分类模型,利用分类模型对用户检索信息进行分类,得到用户检索信息的类别;Step2、将用户检索信息转换成句特征矩阵,根据Step1中确定的类别,使用对应的近似语义卷积神经网络检索模型进行处理,近似语义卷积神经网络检索模型转换层会将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘,根据点乘结果得到用户检索信息与被检索信息的相似度值C,根据相似度值由大到小排序,得到与用户检索信息相似的被检索信息列表;Step3、根据Step2中被检索信息列表中与用户检索信息的相似度值,筛选出最相似的p个待重排被检索信息,对p个待重排被检索信息的原始特征进行相似度C1计算后再重排处理,得到重排后的p个推荐信息;Step4、将Step3中生成的p个推荐信息提供给用户,记录用户的点击行为;当用户对信息满意度进行评分时,记录评分数值;Step5、将Step4中获取的用户点击行为和评分数值用于下一次模型更新训练,以便更好地实现信息检索。2.根据权利要求1所述的基于卷积神经网络的跨领域语义信息检索方法,其特征在于:所述步骤Step1的具体步骤如下:Step1.1、输入知识库中被检索的信息,对被检索的信息进行分词和过滤停用词处理,将过滤后的每个词映射成一个词向量,再将词向量相加形成被检索信息的句向量;Step1.2、利用LibSVM的SVM分类器对步骤Step1.1中生成的被检索信息的句向量进行分类训练,得到SVM分类模型;Step1.3、利用Step1.2中训练好的SVM分类模型对用户检索信息进行分类,得到用户检索信息所属类别。3.根据权利要求1所述的基于卷积神经网络的跨领域语义信息检索方法,其特征在于:所述步骤Step2的具体步骤如下:Step2.1、将用户检索信息转换成句特征矩阵;Step2.2、根据Step1.3中用户检索信息的类别,使用相应类别的近似语义卷积神经网络检索模型进行处理,得到用户检索信息的语义特征表示;Step2.3、通过聚类方法处理,得到被检索信息的聚类特征;Step2.4、近似语义卷积神经网络检索模型将Step2.2中用户检索信息的语义特征和step2.3中被检索...
【专利技术属性】
技术研发人员:黄青松,王兆凯,李帅彬,刘利军,冯旭鹏,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:云南,53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。