The invention discloses a method, through deep convolutional neural networks for short text similarity calculation is to calculate the similarity between this passage, the use of every word in the short text, the similarity calculation is more accurate, the technical proposal is as follows: 1) the number of short text representation a number of matrix, with the corresponding word vector in turn replaced each word in the text, to obtain an ordered sequence vector, as a matrix; 2) of the two target matrix representation of short text generating the similarity matrix; through the arrangement of the words to the cosine similarity between the amount, the similarity matrix is derived; 3) the similarity matrix of rows and columns of tile into the same dimension; 4) the similarity matrix reduction into a value as similarity; for all dimensions with similar matrix, through the depth of the convolutional neural network to The similarity matrix is trained to reduce the dimensionality, and then the similarity is calculated by the multilayer perceptron to represent the similarity values.
【技术实现步骤摘要】
一种通过深度卷积神经网络进行短文本间相似度计算的方法
本专利技术涉及对文本间相似度的计算方法,具体涉及一种通过深度卷积神经网络进行短文本间相似度计算的方法。
技术介绍
随着社区问答类网站的发展,大量不同类型的问题和回答在一起,让用户很难找到有用或感兴趣的内容。解决上述问题的方法之一是对社区问答系统的问题和回答进行分类,方便用户直接在自己感兴趣的话题中进行搜索和浏览。而人工对这些问题和回答进行分类,需要他们在知识领域具有很强的专业知识,同时会消耗相当大的时间和精力。而且随着社区问答系统的广泛应用,问题和回答出现的速度逐步加快,人工标注的速度无法适应问题和回答出现的速度。为此,针对社区问答类系统的大量碎片化知识,寻求一种有效的短文本表示方法并对文本间进行相似度计算是一个紧迫的任务。现有技术中公开的,专利号为CN201310661778.2的中国专利“基于语义的文本相似度计算方法”包括三个步骤:(1)对文本集进行预处理,提取出初始特征词,将其表示成由关键词和概念两部分组成的向量模型;(2)然后分别计算关键词部分的语义相似度和概念部分的语义相似度,通过对两部分进行求和最终得到文本的语义相似度。上述专利通过分别计算关键词部分的语义相似度和概念部分的语义相似度来计算文本之间的相似度,关键词和概念不能代替全部文本。因此,上述专利进行文本相似度计算的依据是不完整的,不能完全代表两段文本之间的相似度。
技术实现思路
为了解决现有技术中的问题,本专利技术提出一种通过深度卷积神经网络进行短文本间相似度计算的方法,能够利用短文本中出现的每一个词语计算短文本间的相似度,使相似度的值计算 ...
【技术保护点】
一种通过深度卷积神经网络进行短文本间相似度计算的方法,其特征在于,包括以下步骤:1)将若干个短文本表示成若干个矩阵:爬取Wikipedia上全部知识领域相关页面中出现的词语作为词表,对词表进行训练,每个词语得到一个词向量,用相应的词向量依次替换短文本中的每个单词,得到一个有序的向量序列,视为一个矩阵;2)对若干个短文本进行两两组合,并对每组的两个短文本的矩阵生成其相似矩阵:对于每组的两个短文本,取其相对应的两个矩阵,依次计算其词向量之间的余弦相似度,对余弦相似度进行排列,得到每组两个短文本的相似矩阵;3)将相似矩阵的行和列平铺成相同维度:统计已有所有相似矩阵的行数和列数,分别找到最大的行数和最多的列数,以最多的行数和列数作为基准,平铺所有的相似矩阵,使其具有相同的行数和相同的列数,称为同维度的相似矩阵;4)将相似矩阵降维成一个值作为相似度:对于所有同维度的相似矩阵,通过深度卷积神经网络对相似矩阵进行训练降维,再通过多层感知机计算相似程度,来代表相似度的值,完成短文本间相似度计算。
【技术特征摘要】
1.一种通过深度卷积神经网络进行短文本间相似度计算的方法,其特征在于,包括以下步骤:1)将若干个短文本表示成若干个矩阵:爬取Wikipedia上全部知识领域相关页面中出现的词语作为词表,对词表进行训练,每个词语得到一个词向量,用相应的词向量依次替换短文本中的每个单词,得到一个有序的向量序列,视为一个矩阵;2)对若干个短文本进行两两组合,并对每组的两个短文本的矩阵生成其相似矩阵:对于每组的两个短文本,取其相对应的两个矩阵,依次计算其词向量之间的余弦相似度,对余弦相似度进行排列,得到每组两个短文本的相似矩阵;3)将相似矩阵的行和列平铺成相同维度:统计已有所有相似矩阵的行数和列数,分别找到最大的行数和最多的列数,以最多的行数和列数作为基准,平铺所有的相似矩阵,使其具有相同的行数和相同的列数,称为同维度的相似矩阵;4)将相似矩阵降维成一个值作为相似度:对于所有同维度的相似矩阵,通过深度卷积神经网络对相似矩阵进行训练降维,再通过多层感知机计算相似程度,来代表相似度的值,完成短文本间相似度计算。2.根据权利要求1所述的一种通过深度卷积神经网络进行短文本间相似度计算的方法,其特征在于,所述步骤1)中采用Google在网上发布的word2vec的开源代码对词表进行训练。3.根据权利要求2所述的一种通过深度卷积神经网络进行短文本间相似度计算的方法,其特征在于,所述步骤1)中爬取Wikipedia上全部知识领域相关页面中出现的词语时消除重复出现的词语和字母与数字组合的词语。4.根据权利要求3所述的一种通过深度卷积神经网络进行短文本间相似度计算的方法,其特征在于,所述步骤1)中用词向量依次替换短文本中的单词前对短文本进行预处理:首先去除字母与数字组合的词语和标点符号,然后定义停用词,并消除停用词。5.根据权利要求1所述的一种通过深度卷积神经网络进行短文本间相似度计算的方法,其特征在于,所述步骤2)中对每组的两个短文本的矩阵生成其相似矩阵的具体步骤如下:2.1)从两个矩阵中各取一个词向量,两个向量分别为a、b,则余弦相似度的计...
【专利技术属性】
技术研发人员:魏笔凡,郭朝彤,刘均,郑庆华,吴蓓,郑元浩,石磊,吴科炜,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。