一种基于卷积神经网络的跨领域语义信息检索方法技术

技术编号:17667621 阅读:44 留言:0更新日期:2018-04-11 05:56
本发明专利技术涉及一种基于卷积神经网络的跨领域语义信息检索方法,属计算机自然语言处理领域。本发明专利技术通过词向量SVM进行短文本分类,降低无效检索域从而提高近似句的准确率,再将分类后的文本拼接成向量矩阵放入卷积神经网络,将卷积神经网络的最后一层用转换层进行近似句的检索计算。最终模型提高了近似语义检索的准确率。

A cross domain semantic information retrieval method based on convolution neural network

【技术实现步骤摘要】
一种基于卷积神经网络的跨领域语义信息检索方法
本专利技术涉及一种基于卷积神经网络的跨领域语义信息检索方法,属计算机自然语言处理领域。
技术介绍
当前基于关键词检索的方式已被广泛认知,但命中率较低。命中率较低的原因包括基于搜索引擎的关键词检索需要大量语料,但许多场景下,小规模或中等规模的语料很难达到理想的效果,且Zhao(&lt;ChineseJournalofComputers&gt;,2005)提出关键词匹配计算方法将词语看成是孤立的元素,相互之间没有联系是不合理的。目前,Zhao(&lt;全国第八届计算语言学联合学术会议&gt;,2005)将句子相似度的研究方法可以归纳为:1)基于词特征的句子相似度计算、2)基于词义特征的句子相似度计算、3)基于句法分析特征的句子相似度计算。词特征方法进行句相似度计算一般依靠构建向量空间,但这类方法的明显缺陷是特征稀疏,用在稍大点的语料上效果不理想。为了解决特征稀疏问题,Wang(&lt;arXiv.org&gt;,2006)提出的基于词汇分解与组合的句子相似度计算,其将对比的句子进行向量化,对形成的句子特征矩阵进行分解,用于近似语句计算,但是此方法对环境的实时计算能力要求较高。词义特征的方法主要依赖外源语义词典,如You(<ComputerSystems&Applications>,2013)提出的基于HowNet的信息量计算语义相似度算法,但是这类方法局限性太强,外源语义词典的完整性直接影响着模型的准确率。句法分析特征计算句子相似度的方法,如Li(&lt;JournalofComputerResearchandDevelopment&gt;,2013)提出的基于框架语义分析的汉语句子相似度计算,其主要利用依存关系提取核心词构建相似矩阵进行相似度计算,这类方法其实还是停留在浅层词义的分析上,进行相似度计算时忽略了句子中词与词之间的关系,在短文本分析中效果较不理想。
技术实现思路
本专利技术提供了一种基于卷积神经网络的跨领域语义信息检索方法,相比传统检索方式不仅仅依靠字面意思进行信息检索,而是能挖掘信息的潜在语义,达到提高相似信息的检索命中率。本专利技术的技术方案是:一种基于卷积神经网络的跨领域语义信息检索方法,所述方法具体步骤如下:Step1、首先对知识库中被检索的信息进行预处理,然后对处理后的信息进行句向量表示,其次利用LibSVM的SVM分类器对句向量进行分类训练,得到SVM分类模型,利用分类模型对用户检索信息进行分类,得到用户检索信息的类别;Step2、将用户检索信息转换成句特征矩阵,根据Step1中确定的类别,使用对应的近似语义卷积神经网络检索模型进行处理,近似语义卷积神经网络检索模型转换层会将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘,根据点乘结果得到用户检索信息与被检索信息的相似度值C,根据相似度值由大到小排序,得到与用户检索信息相似的被检索信息列表;Step3、根据Step2中被检索信息列表中与用户检索信息的相似度值,筛选出最相似的p个待重排被检索信息,对p个待重排被检索信息的原始特征进行相似度C1计算后再重排处理,得到重排后的p个推荐信息;Step4、将Step3中生成的p个推荐信息提供给用户,记录用户的点击行为;当用户对信息满意度进行评分时,记录评分数值;Step5、将Step4中获取的用户点击行为和评分数值用于下一次模型更新训练,以便更好地实现信息检索。所述步骤Step1的具体步骤如下:Step1.1、输入知识库中被检索的信息,对被检索的信息进行分词和过滤停用词处理,将过滤后的每个词映射成一个词向量,再将词向量相加形成被检索信息的句向量;Step1.2、利用LibSVM的SVM分类器对步骤Step1.1中生成的被检索信息的句向量进行分类训练,得到SVM分类模型;Step1.3、利用Step1.2中训练好的SVM分类模型对用户检索信息进行分类,得到用户检索信息所属类别。所述步骤Step2的具体步骤如下:Step2.1、将用户检索信息转换成句特征矩阵;Step2.2、根据Step1.3中用户检索信息的类别,使用相应类别的近似语义卷积神经网络检索模型进行处理,得到用户检索信息的语义特征表示;Step2.3、通过聚类方法处理,得到被检索信息的聚类特征;Step2.4、近似语义卷积神经网络检索模型将Step2.2中用户检索信息的语义特征和step2.3中被检索信息的聚类特征通过转换层进行映射点乘,得到用户检索信息与被检索信息的语义相似度值,根据相似度值排序得到被检索信息列表。所述步骤Step3的具体步骤如下:Step3.1、根据Step2.4中被检索信息列表中被检索信息与用户检索信息的相似度值,筛选出最相似的p个待重排被检索信息;Step3.2、将用户检索信息与Step3.1中p个待重排被检索信息的原始特征进行相似度C1计算,根据计算结果优化重排,得到最终重排的p个推荐信息。所述步骤Step4的具体步骤如下:将Step3.2中得到的推荐信息推送给用户,如果用户进行点击则表示用户意图和信息题目相关,将此行为记录到日志中,经过多次用户反馈,把用户点击次数较多信息和用户进行检索的信息进行归类,即用户检索信息和点击的推荐信息成对归类;当用户对信息满意度进行评分时,记录评分数值。所述近似语义卷积神经网络检索模型由句卷积层、池化层、隐藏层和转化层组成;所述转化层将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘,根据点乘结果得到用户检索信息与被检索信息的相似度值其中,Oi表示隐藏层第i个输出系数,且0≤Oi≤1,mi表示被检索信息的句子在聚类特征上的第i个系数,t表示聚类特征的个数;Wn表示被检索信息的句子中第n个词对应的词向量,S表示被检索信息的句子中所含词的总数,ti表示第i个聚类中心的词向量,cos()表示余弦函数。所述聚类方法为采用快速搜索与寻找密度峰值的聚类方法。所述其中,β为调整系数,tn表示用户检索信息的句子S1与待重排被检索信息的句子Sj的原始特征的相似性,Oi表示隐藏层第i个输出系数,且0≤Oi≤1,mi表示待重排被检索信息的句子在聚类特征上的第i个系数,t表示聚类特征的个数,S1表示用户检索信息的句子,Sj表示待重排被检索信息的句子,Wk表示S1中第k个词对应的词向量,W'z表示Sj中第z个词对应的词向量,Len(S1)表示S1中词的个数。本专利技术的有益效果是:1、本专利技术利用gensim的word2vec模块进行词向量训练,由于词的向量是由词的邻近词计算出来的,所以向量里会隐含语义信息,适合用于语义的信息提取。此外,本专利技术采用快速搜索与寻找密度峰值的聚类方法处理大数据,其利用局部密度和高密度最小距离作为聚类标准,相比传统聚类速度更快且效果较好。2、在前期数据准备过程中,将数据进行分类。因为不同领域的相同词,特征倾向有很大的不同,所以对句子进行近似计算前进行文本分类,会减少无效检索域。传统的SVM将词作为独立维度,如果选用的特征词过少,难以表达特征少且特征空间高的短文本特征,会使分类性能降低;如果选用的特征词过多,会造成整体维度较高,使得特征本文档来自技高网
...
一种基于卷积神经网络的跨领域语义信息检索方法

【技术保护点】
一种基于卷积神经网络的跨领域语义信息检索方法,其特征在于:所述方法具体步骤如下:Step1、首先对知识库中被检索的信息进行预处理,然后对处理后的信息进行句向量表示,其次利用LibSVM的SVM分类器对句向量进行分类训练,得到SVM分类模型,利用分类模型对用户检索信息进行分类,得到用户检索信息的类别;Step2、将用户检索信息转换成句特征矩阵,根据Step1中确定的类别,使用对应的近似语义卷积神经网络检索模型进行处理,近似语义卷积神经网络检索模型转换层会将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘,根据点乘结果得到用户检索信息与被检索信息的相似度值C,根据相似度值由大到小排序,得到与用户检索信息相似的被检索信息列表;Step3、根据Step2中被检索信息列表中与用户检索信息的相似度值,筛选出最相似的p个待重排被检索信息,对p个待重排被检索信息的原始特征进行相似度C1计算后再重排处理,得到重排后的p个推荐信息;Step4、将Step3中生成的p个推荐信息提供给用户,记录用户的点击行为;当用户对信息满意度进行评分时,记录评分数值;Step5、将Step4中获取的用户点击行为和评分数值用于下一次模型更新训练,以便更好地实现信息检索。...

【技术特征摘要】
1.一种基于卷积神经网络的跨领域语义信息检索方法,其特征在于:所述方法具体步骤如下:Step1、首先对知识库中被检索的信息进行预处理,然后对处理后的信息进行句向量表示,其次利用LibSVM的SVM分类器对句向量进行分类训练,得到SVM分类模型,利用分类模型对用户检索信息进行分类,得到用户检索信息的类别;Step2、将用户检索信息转换成句特征矩阵,根据Step1中确定的类别,使用对应的近似语义卷积神经网络检索模型进行处理,近似语义卷积神经网络检索模型转换层会将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘,根据点乘结果得到用户检索信息与被检索信息的相似度值C,根据相似度值由大到小排序,得到与用户检索信息相似的被检索信息列表;Step3、根据Step2中被检索信息列表中与用户检索信息的相似度值,筛选出最相似的p个待重排被检索信息,对p个待重排被检索信息的原始特征进行相似度C1计算后再重排处理,得到重排后的p个推荐信息;Step4、将Step3中生成的p个推荐信息提供给用户,记录用户的点击行为;当用户对信息满意度进行评分时,记录评分数值;Step5、将Step4中获取的用户点击行为和评分数值用于下一次模型更新训练,以便更好地实现信息检索。2.根据权利要求1所述的基于卷积神经网络的跨领域语义信息检索方法,其特征在于:所述步骤Step1的具体步骤如下:Step1.1、输入知识库中被检索的信息,对被检索的信息进行分词和过滤停用词处理,将过滤后的每个词映射成一个词向量,再将词向量相加形成被检索信息的句向量;Step1.2、利用LibSVM的SVM分类器对步骤Step1.1中生成的被检索信息的句向量进行分类训练,得到SVM分类模型;Step1.3、利用Step1.2中训练好的SVM分类模型对用户检索信息进行分类,得到用户检索信息所属类别。3.根据权利要求1所述的基于卷积神经网络的跨领域语义信息检索方法,其特征在于:所述步骤Step2的具体步骤如下:Step2.1、将用户检索信息转换成句特征矩阵;Step2.2、根据Step1.3中用户检索信息的类别,使用相应类别的近似语义卷积神经网络检索模型进行处理,得到用户检索信息的语义特征表示;Step2.3、通过聚类方法处理,得到被检索信息的聚类特征;Step2.4、近似语义卷积神经网络检索模型将Step2.2中用户检索信息的语义特征和step2.3中被检索...

【专利技术属性】
技术研发人员:黄青松王兆凯李帅彬刘利军冯旭鹏
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1