The invention discloses a method and a device for determining the text semantic similarity, which relates to the technical field of Natural Language Processing, the calculation method to solve the existing text similarity can not be achieved on the text semantic similarity calculation problem. The method of the invention includes obtaining the first second text and text, text and text is the first second arbitrary semantic similarity calculation of the two text; according to the preset label theme Label LDA model will be the first text and text second were converted to the first theme of the label vector and second theme label vector, each dimension vector and the first theme label the second theme of the label vector corresponds to a preset theme label; according to the vector similarity algorithm to calculate the similarity vector and the second theme of the first theme tag label vector, get the semantic similarity between the text and the text value of second. The invention is applied to the process of text similarity calculation.
【技术实现步骤摘要】
文本语义相似度的确定方法及装置
本专利技术涉及自然语言处理
,尤其涉及一种文本语义相似度的确定方法及装置。
技术介绍
在移动互联时代的背景下,信息的产生和流通是朝着更加智能化,更加海量化去发展,在这些庞大的信息海洋中,有很大一部分是文本信息。在日常生活中,我们每天都会从门户网站、社交网站接触到大量的新文本内容,如何将这些文本信息进行合理的归类并将其推送给合适的人群,就成为了人工智能领域的一重大课题。在对这些庞大的文本信息进行归类处理时,通常用到的技术是对文本的聚类。文本聚类是将一些有共同属性的文本聚合到一块,并形成一个类簇。目前,关于聚类的方法已经有很多种,不同的聚类方法在不同的场景中表现能力也是各有长短。然而,所有的聚类算法的一个共性就是需要比较样本之间的相似度,而这个相似度在文本聚类过程中显得尤为重要。在具体实施的过程中,由于文本在计算机内部是以字符串形式来表示的,而相似度则是通过数值之间的关系来计算的。因此,在计算文本之间的相似度之前,必须要将文本进行向量化处理,然后将文本之间的相似度计算转换为两个向量之间的相似度计算。目前对于文本向量化的方法主要有两种:一种是用词表词频的方式来对文本进行向量化处理,具体是将文本中的每一个不重复的词的身份标识作为文本对应的向量的一个维度,并将每个词出现的次数作为对应该维度的值,该种文本向量化的方式在计算的过程中会产生由于向量的维度过大而影响计算的效率,而且每个维度之间是相互独立的,无法体现词与词之间的语义关系,因此无法从整体上实现文本语义的相似度计算。另一种是基于词表权重选取方法的向量化处理,具体是通过计算文本 ...
【技术保护点】
一种文本语义相似度的确定方法,其特征在于,所述方法包括:获取第一文本以及第二文本,所述第一文本和所述第二文本是需要进行语义相似度计算的任意两个文本;根据预设标签主题Label LDA模型将所述第一文本以及所述第二文本分别转换为第一主题标签向量和第二主题标签向量,所述第一主题标签向量和所述第二主题标签向量中每个维度对应一个预设主题标签,每个维度对应的维度值表示每个预设主题标签的权重值,所述预设主题标签为表示文本语义的单个主题词;根据向量相似度算法对所述第一主题标签向量和所述第二主题标签向量进行相似度计算,得到所述第一文本与所述第二文本之间的语义相似度值。
【技术特征摘要】
1.一种文本语义相似度的确定方法,其特征在于,所述方法包括:获取第一文本以及第二文本,所述第一文本和所述第二文本是需要进行语义相似度计算的任意两个文本;根据预设标签主题LabelLDA模型将所述第一文本以及所述第二文本分别转换为第一主题标签向量和第二主题标签向量,所述第一主题标签向量和所述第二主题标签向量中每个维度对应一个预设主题标签,每个维度对应的维度值表示每个预设主题标签的权重值,所述预设主题标签为表示文本语义的单个主题词;根据向量相似度算法对所述第一主题标签向量和所述第二主题标签向量进行相似度计算,得到所述第一文本与所述第二文本之间的语义相似度值。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取训练样本,所述训练样本包含大量的不同类型的文本数据;根据预设主题标签对所述训练样本进行标注,训练样本中的每个文本至少对应一个预设主题标签;根据标签主题LabelLDA算法对所述训练样本以及所述训练样本对应的预设主题标签进行训练,得到所述预设标签主题LabelLDA模型。3.根据权利要求1或2所述的方法,其特征在于,所述根据向量相似度算法对所述第一主题标签向量和所述第二主题标签向量进行相似度计算,包括:分别对所述第一主题标签向量和所述第二主题标签向量进行截取,保留所述第一主题标签向量和所述第二主题标签向量中小于等于截取阈值的维度值以及小于等于所述截取阈值的维度值对应的维度,所述截取阈值为预设主题标签的倒数;对截取后的第一主题标签向量和截取后的第二主题标签向量分别进行归一化处理,得到第一有效主题标签向量和第二有效主题标签向量;根据最大标签相似度算法计算所述第一有效主题标签向量和所述第二有效主题标签向量之间的相似度值。4.根据权利要求3所述的方法,其特征在于,所述根据最大标签相似度算法计算第一有效主题标签向量和第二有效主题标签向量之间的相似度值,包括:根据余弦相似度算法计算所述第一有效主题标签向量对应的每一个预设主题标签分别与所述第二有效主题标签向量对应的每一个预设主题标签之间的主题标签相似度值;按照下述公式,计算所述第一有效主题标签向量和所述第二有效主题标签向量之间的相似度值:其中,SIM为所述第一有效主题标签向量和所述第二有效主题标签向量之间的相似度值,Ki为所述第一有效主题标签向量的维度数,Kj为第二有效主题标签向量的维度数,NTi为第一有效主题标签向量中第i个维度对应的维度值,NTj为第二有效主题标签向量中第j个维度对应的维度值;P(L1i,L2j)为第一有效主题标签向量中第i个维度值对应的预设主题标签与第二有效主题标签向量中第j个维度值对应的预设主题标签之间的主题标签相似度值。5.根据权利要求4所述的方法,其特征在于,所述获取第一文本以及第二文本,包括:从互联网中爬取所述第一文本以及所述...
【专利技术属性】
技术研发人员:董超,
申请(专利权)人:东软集团股份有限公司,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。