文本语义相似度的确定方法及装置制造方法及图纸

技术编号:15541878 阅读:94 留言:0更新日期:2017-06-05 11:04
本发明专利技术公开了一种文本语义相似度的确定方法及装置,涉及自然语言处理技术领域,解决了现有文本相似度计算方法无法实现文本语义上的相似度的计算的问题。本发明专利技术的方法包括:获取第一文本以及第二文本,第一文本和第二文本是需要进行语义相似度计算的任意两个文本;根据预设标签主题Label LDA模型将第一文本以及第二文本分别转换为第一主题标签向量和第二主题标签向量,第一主题标签向量和第二主题标签向量中每个维度对应一个预设主题标签;根据向量相似度算法对第一主题标签向量和第二主题标签向量进行相似度计算,得到第一文本与第二文本之间的语义相似度值。本发明专利技术应用于文本相似度计算的过程中。

Method and device for determining text semantic similarity

The invention discloses a method and a device for determining the text semantic similarity, which relates to the technical field of Natural Language Processing, the calculation method to solve the existing text similarity can not be achieved on the text semantic similarity calculation problem. The method of the invention includes obtaining the first second text and text, text and text is the first second arbitrary semantic similarity calculation of the two text; according to the preset label theme Label LDA model will be the first text and text second were converted to the first theme of the label vector and second theme label vector, each dimension vector and the first theme label the second theme of the label vector corresponds to a preset theme label; according to the vector similarity algorithm to calculate the similarity vector and the second theme of the first theme tag label vector, get the semantic similarity between the text and the text value of second. The invention is applied to the process of text similarity calculation.

【技术实现步骤摘要】
文本语义相似度的确定方法及装置
本专利技术涉及自然语言处理
,尤其涉及一种文本语义相似度的确定方法及装置。
技术介绍
在移动互联时代的背景下,信息的产生和流通是朝着更加智能化,更加海量化去发展,在这些庞大的信息海洋中,有很大一部分是文本信息。在日常生活中,我们每天都会从门户网站、社交网站接触到大量的新文本内容,如何将这些文本信息进行合理的归类并将其推送给合适的人群,就成为了人工智能领域的一重大课题。在对这些庞大的文本信息进行归类处理时,通常用到的技术是对文本的聚类。文本聚类是将一些有共同属性的文本聚合到一块,并形成一个类簇。目前,关于聚类的方法已经有很多种,不同的聚类方法在不同的场景中表现能力也是各有长短。然而,所有的聚类算法的一个共性就是需要比较样本之间的相似度,而这个相似度在文本聚类过程中显得尤为重要。在具体实施的过程中,由于文本在计算机内部是以字符串形式来表示的,而相似度则是通过数值之间的关系来计算的。因此,在计算文本之间的相似度之前,必须要将文本进行向量化处理,然后将文本之间的相似度计算转换为两个向量之间的相似度计算。目前对于文本向量化的方法主要有两种:一种是用词表词频的方式来对文本进行向量化处理,具体是将文本中的每一个不重复的词的身份标识作为文本对应的向量的一个维度,并将每个词出现的次数作为对应该维度的值,该种文本向量化的方式在计算的过程中会产生由于向量的维度过大而影响计算的效率,而且每个维度之间是相互独立的,无法体现词与词之间的语义关系,因此无法从整体上实现文本语义的相似度计算。另一种是基于词表权重选取方法的向量化处理,具体是通过计算文本中每个词在该文本中的权重,然后按照权重由大到小的顺序挑选出TOPN的词以及对应的权重作为该文本的向量,权重的计算方法目前比较流行的是一种加权技术(termfrequency–inversedocumentfrequency,TF-IDF)算法,这种向量化处理方法虽然在一定程度上能够过滤掉一些对文本贡献很小的词,但也不能表示词与词之间的语义关联性,因此,也无法在整体上实现文本语义的相似度计算。
技术实现思路
鉴于上述问题,本专利技术提供一种文本语义相似度的确定方法及装置,用以解决现有的文本相似度计算方法无法实现文本语义上的相似度的计算问题。为解决上述技术问题,第一方面,本专利技术提供了一种文本语义相似度的确定方法,所述方法包括:获取第一文本以及第二文本,所述第一文本和所述第二文本是需要进行语义相似度计算的任意两个文本;根据预设标签主题LabelLDA模型将所述第一文本以及所述第二文本分别转换为第一主题标签向量和第二主题标签向量,所述第一主题标签向量和所述第二主题标签向量中每个维度对应一个预设主题标签,每个维度对应的维度值表示每个预设主题标签的权重值,所述预设主题标签为表示文本语义的单个主题词;根据向量相似度算法对所述第一主题标签向量和所述第二主题标签向量进行相似度计算,得到所述第一文本与所述第二文本之间的语义相似度值。第二方面,本专利技术提供了一种文本语义相似度的确定装置,所述装置包括:文本获取单元,用于获取第一文本以及第二文本,所述第一文本和所述第二文本是需要进行语义相似度计算的任意两个文本;转换单元,用于根据预设标签主题LabelLDA模型将所述第一文本以及所述第二文本分别转换为第一主题标签向量和第二主题标签向量,所述第一主题标签向量和所述第二主题标签向量中每个维度对应一个预设主题标签,每个维度对应的维度值表示每个预设主题标签的权重值,所述预设主题标签为表示文本语义的单个主题词;计算单元,用于根据向量相似度算法对所述第一主题标签向量和所述第二主题标签向量进行相似度计算,得到所述第一文本与所述第二文本之间的语义相似度值。借由上述技术方案,本专利技术提供的文本语义相似度的确定方法及装置,与现有技术相比,第一文本以及第二文本转换为的第一主题标签向量以及第二主题标签向量中的维度是能够表示文本语义的主题词(预设主题标签),因此,对第一文本和第二文本的向量化是基于文本语义层面进行的,进而将第一主题标签向量以及第二主题标签向量进行相似度计算得到的文本之间的相似度值为能够在语义层面体现的相似度。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种文本语义相似度的确定方法的流程图;图2示出了本专利技术实施例提供的另一种文本语义相似度的确定方法的流程图;图3示出了本专利技术实施例提供的一种文本语义相似度的确定装置的组成框图;图4示出了本专利技术实施例提供的另一种文本语义相似度的确定装置的组成框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。为解决文本相似度计算方法无法实现文本语义上的相似度的计算的问题,本专利技术实施例提供了一种文本语义相似度的确定方法,如图1所示,该方法包括:101、获取第一文本以及第二文本。其中第一文本和第二文本是需要进行文本语义相似度计算的任意两个文本。需要说明的是第一文本和第二文本的方式和来源不作限定,可以是从直接从线下的文本语料库中的获取到的文本,也可以是从互联网中通过爬虫等工具爬取到的文本等。具体的第一文本和第二文本的获取的来源和方式根据实际的需求确定。102、根据预设标签主题LabelLDA模型将第一文本以及第二文本分别转换为第一主题标签向量和第二主题标签向量。第一主题标签向量和第二主题标签向量中每个维度对应一个预设主题标签,每个维度对应的维度值表示每个预设主题标签的权重值,预设主题标签为表示文本语义的单个主题词。通常直接获取到的第一文本和第二文本在根据预设标签主题(Labellatentdirichletallocation,LabelLDA)模型转换为主题标签向量之前,需要进行文本的预处理。具体的预处理过程包括:首先,将第一文本和第二文本进行分词处理,得到一个个单独的词。分词的方式可以是基于字符串匹配的分词方法、基于理解的分词方法以及基于统计的分词方法等。然后,对第一文本和第二文本分词后得到的分词结果进行停用词过滤,停用词主要包括没有实际功能意义的词,比如语气助词、介词等。将预处理后的第一文本和第二文本中的词分别输入到预设标签主题LabelLDA模型中,分别得到对应的第一主题标签向量和第二主题标签向量,其中第一主题标签向量和第二主题标签向量中每个维度对应一个预设主题标签,第一主题标签向量和第二主题标签向量的维度数等于预设主题标签的个数,第一主题标签向量和第二主题标签向量中每个维度上的维度值表示每个预设主题标签的权重值。第一主题标签向量中所有的维度对应的本文档来自技高网
...
文本语义相似度的确定方法及装置

【技术保护点】
一种文本语义相似度的确定方法,其特征在于,所述方法包括:获取第一文本以及第二文本,所述第一文本和所述第二文本是需要进行语义相似度计算的任意两个文本;根据预设标签主题Label LDA模型将所述第一文本以及所述第二文本分别转换为第一主题标签向量和第二主题标签向量,所述第一主题标签向量和所述第二主题标签向量中每个维度对应一个预设主题标签,每个维度对应的维度值表示每个预设主题标签的权重值,所述预设主题标签为表示文本语义的单个主题词;根据向量相似度算法对所述第一主题标签向量和所述第二主题标签向量进行相似度计算,得到所述第一文本与所述第二文本之间的语义相似度值。

【技术特征摘要】
1.一种文本语义相似度的确定方法,其特征在于,所述方法包括:获取第一文本以及第二文本,所述第一文本和所述第二文本是需要进行语义相似度计算的任意两个文本;根据预设标签主题LabelLDA模型将所述第一文本以及所述第二文本分别转换为第一主题标签向量和第二主题标签向量,所述第一主题标签向量和所述第二主题标签向量中每个维度对应一个预设主题标签,每个维度对应的维度值表示每个预设主题标签的权重值,所述预设主题标签为表示文本语义的单个主题词;根据向量相似度算法对所述第一主题标签向量和所述第二主题标签向量进行相似度计算,得到所述第一文本与所述第二文本之间的语义相似度值。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取训练样本,所述训练样本包含大量的不同类型的文本数据;根据预设主题标签对所述训练样本进行标注,训练样本中的每个文本至少对应一个预设主题标签;根据标签主题LabelLDA算法对所述训练样本以及所述训练样本对应的预设主题标签进行训练,得到所述预设标签主题LabelLDA模型。3.根据权利要求1或2所述的方法,其特征在于,所述根据向量相似度算法对所述第一主题标签向量和所述第二主题标签向量进行相似度计算,包括:分别对所述第一主题标签向量和所述第二主题标签向量进行截取,保留所述第一主题标签向量和所述第二主题标签向量中小于等于截取阈值的维度值以及小于等于所述截取阈值的维度值对应的维度,所述截取阈值为预设主题标签的倒数;对截取后的第一主题标签向量和截取后的第二主题标签向量分别进行归一化处理,得到第一有效主题标签向量和第二有效主题标签向量;根据最大标签相似度算法计算所述第一有效主题标签向量和所述第二有效主题标签向量之间的相似度值。4.根据权利要求3所述的方法,其特征在于,所述根据最大标签相似度算法计算第一有效主题标签向量和第二有效主题标签向量之间的相似度值,包括:根据余弦相似度算法计算所述第一有效主题标签向量对应的每一个预设主题标签分别与所述第二有效主题标签向量对应的每一个预设主题标签之间的主题标签相似度值;按照下述公式,计算所述第一有效主题标签向量和所述第二有效主题标签向量之间的相似度值:其中,SIM为所述第一有效主题标签向量和所述第二有效主题标签向量之间的相似度值,Ki为所述第一有效主题标签向量的维度数,Kj为第二有效主题标签向量的维度数,NTi为第一有效主题标签向量中第i个维度对应的维度值,NTj为第二有效主题标签向量中第j个维度对应的维度值;P(L1i,L2j)为第一有效主题标签向量中第i个维度值对应的预设主题标签与第二有效主题标签向量中第j个维度值对应的预设主题标签之间的主题标签相似度值。5.根据权利要求4所述的方法,其特征在于,所述获取第一文本以及第二文本,包括:从互联网中爬取所述第一文本以及所述...

【专利技术属性】
技术研发人员:董超
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1