文本语义相似度计算的方法及装置制造方法及图纸

技术编号:15541954 阅读:77 留言:0更新日期:2017-06-05 11:07
本发明专利技术公开了一种文本语义相似度计算的方法及装置,涉及自然语言处理技术领域,解决了现有文本相似度计算方法准确性较低的问题。本发明专利技术的方法包括:将第一文本对应的第一词袋与第二文本对应的第二词袋中的词合并得到一个维度词袋;根据基于语义的词转换向量工具对所述第一词袋以及所述第二词袋进行向量化计算,得到第一向量和第二向量,所述第一向量和所述第二向量的维度与所述维度词袋中的词一一对应;根据向量相似度计算算法计算所述第一向量和所述第二向量的相似度值,得到所述第一文本和所述第二文本的相似度结果。本发明专利技术应用于文本相似度计算的过程中。

Method and device for computing text semantic similarity

The invention discloses a method and a device for calculating text semantic similarity, relating to the technical field of Natural Language Processing, and solving the problem that the existing text similarity calculation method has low accuracy. The method of the invention comprises the bag bag of words second words first and second text corresponding to the first text in the corresponding words with a bag of words based on semantic dimension; word vector conversion tool for the first word and the second word bag bag vectorzation based on the first and second vector vector, the first vector and the second vector dimension and the dimension of the words in the corresponding bag of words; according to the similarity computation of vector similarity algorithm to calculate the first vector and the second vectors, obtained the first text and the second text similarity results. The invention is applied to the process of text similarity calculation.

【技术实现步骤摘要】
文本语义相似度计算的方法及装置
本专利技术涉及自然语言处理
,尤其涉及一种文本语义相似度计算的方法及装置。
技术介绍
在自然语言处理过程中,计算文本间相似度是文本处理的基础运算,利用文本间相似度,或者反方向计算出文本间距离,可以完成类似于文本查重,热点抽取,兴趣发现等功能。此外,利用文本间相似度作为前置运算,后续可以完成针对于大量文本进行聚类或者分类等复杂计算。而对于这种复杂运算,作为前置运算的文本相似度的精度直接影响着最终运算的结果。文本作为一种非结构化数据,在计算处理时通常被理解为无限维度的对象,所以在计算文本间相似度之前,需要进行结构化的降维处理。对于文本降维,目前常用的降维方式有根据词频统计进行降维,根据词的重要程度值(TermFrequency–InverseDocumentFrequency,TFIDF)值进行降维。但是,对于词频统计和TFIDF值等方式进行文本降维时,这种运算是单纯的基于词的出现概率来进行的,即只能在相同词的维度上进行相似度的计算,即使是同义的不同词维度也无法进行相似度的计算,而对于两篇文本中词维度不同的情况下,需要使用两篇文本中相同词的维度进行相似度计算,而仅使用相同词的维度很可能无法完整地反映文本的语义特征,因此最终计算得到的相似度结果通常不能较准确的反应文本间的语义相似度。
技术实现思路
鉴于上述问题,本专利技术提供一种文本语义相似度计算的方法及装置,用以解决现有的文本语义相似度计算方法准确性较低的问题。为解决上述技术问题,第一方面,本专利技术提供了一种文本语义相似度计算的方法,所述方法包括:将第一文本对应的第一词袋与第二文本对应的第二词袋中的词合并得到一个维度词袋,所述第一文本和第二文本为进行相似度计算的文本,所述第一词袋中的词为第一文本进行分词得到的词,所述第二词袋中的词为第二文本进行分词得到的词;根据基于语义的词转换向量工具对所述第一词袋以及所述第二词袋进行向量化计算,得到第一向量和第二向量,所述第一向量和所述第二向量的维度与所述维度词袋中的词一一对应;根据向量相似度计算算法计算所述第一向量和所述第二向量的相似度值,得到所述第一文本和所述第二文本的相似度结果。第二方面,本专利技术提供了一种文本语义相似度计算的装置,所述装置包括:合并单元,用于将第一文本对应的第一词袋与第二文本对应的第二词袋中的词合并得到一个维度词袋,所述第一文本和第二文本为进行相似度计算的文本,所述第一词袋中的词为第一文本进行分词得到的词,所述第二词袋中的词为第二文本进行分词得到的词;向量化单元,用于根据基于语义的词转换向量工具对所述第一词袋以及所述第二词袋进行向量化计算,得到第一向量和第二向量,所述第一向量和所述第二向量的维度与所述维度词袋中的词一一对应;相似度计算单元,用于根据向量相似度计算算法计算所述第一向量和所述第二向量的相似度值,得到所述第一文本和所述第二文本的相似度结果。借由上述技术方案,本专利技术提供的文本语义相似度计算的方法及装置,在对进行相似度计算的两个文本进行降维处理过程中,得到的文本对应的向量中的维度词包括两个文本中的所有词,这样就不需要只选取文本中相同词的维度进行相似度的计算,因此可以完整地反映每个文本的语义特征,并且在进行文本的向量化计算时由基于语义的词转换向量工具进一步提供语义上的支持,能够充分考虑到同义不同词之间的相似关联性。因此最终计算得到的文本间相似度结果更加的准确。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种文本语义相似度计算的方法的流程图;图2示出了本专利技术实施例提供的另一种文本语义相似度计算的方法的流程图;图3示出了本专利技术实施例提供的一种文本语义相似度计算的装置的组成框图;图4示出了本专利技术实施例提供的另一种文本语义相似度计算的装置的组成框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。为解决现有的文本语义相似度计算方法准确性较低的问题,本专利技术实施例提供了一种文本语义相似度计算的方法,如图1所示,该方法包括:101、将第一文本对应的第一词袋与第二文本对应的第二词袋中的词合并得到一个维度词袋。其中第一文本和第二文本为进行相似度计算的文本,第一词袋中的词为第一文本进行分词并去掉停用词,第二词袋中的词为第二文本进行分词并去掉停用词。需要说明的是,第一词袋以及第二词袋中的词都为互不重复的词。以具体的示例说明将第一文本对应的第一词袋与第二文本对应的第二词袋中的词合并得到一个维度词袋的实现方式:假设,第一词袋为A',第二词袋为B',第一词袋与第二词袋中的词如下所示,其中w表示词。A'=[wa1,wa2,wa3,wa4,wa5…]B'=[wb1,wb2,wb3,wb4,wb5…]将第一词袋为A'和第二词袋为B'合并后,得到的维度词袋为CC=[wa1,wa2,wa3,wa4,wa5…,wb1,wb2,wb3,wb4,wb5…]需要说明的是,维度词袋中对应第一词袋与第二词袋中的词的先后顺序不作限定。另外,当第一词袋中关于第二词袋中有相同的词的情况下,为了降低后续计算的复杂程度,即减小后续步骤中第一向量与第二向量的维度数量,也可以将合并得到的维度词袋中对于相同的词只保留一个词,即维度词袋中的词为互不重复的词。102、根据基于语义的词转换向量工具对第一词袋以及第二词袋进行向量化计算,得到第一向量和第二向量。现有常用的基于语义的词转换向量工具包括Word2Vec以及GloVe等。本实施例以Word2Vec为例进行说明,实际应用中可以使用任意一种基于语义的词转换向量工具。Word2Vec是开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把词转换为K维向量空间中的向量,本实施例是就是通过Word2Vec将第一词袋和第二词袋中的词转换为预设维度的向量,对第一词袋和维度词袋中的词以及第二词袋和维度词袋中的词进行相似度的计算,最终将第一词袋以及第二词袋向量化,向量化后,第一词袋和第二词袋对应的第一向量和第二向量的维度与维度词袋中的词一一对应,这样可以保证向量化后的第一向量和第二向量中维度都是相同的。需要说明的是,其中预设维度为根据实际的需求自由设定的,比如可以设为100、200等,通常预设维度越大,词转换后的向量能更加准确的表达词的语义特征。需要说明的是,具体将第一词袋以及第二词袋向量化时,依据第一词袋以及第二词袋中的词与维度词袋中的词之间的相似度是由通过基于语义的词转换向量工具转换后得到的词向量之间的相似度衡量的。103、根据向量相似度计算算法计算本文档来自技高网...
文本语义相似度计算的方法及装置

【技术保护点】
一种文本语义相似度计算的方法,其特征在于,所述方法包括:将第一文本对应的第一词袋与第二文本对应的第二词袋中的词合并得到一个维度词袋,所述第一文本和第二文本为进行相似度计算的文本,所述第一词袋中的词为第一文本进行分词得到的词,所述第二词袋中的词为第二文本进行分词得到的词;根据基于语义的词转换向量工具对所述第一词袋以及所述第二词袋进行向量化计算,得到第一向量和第二向量,所述第一向量和所述第二向量的维度与所述维度词袋中的词一一对应;根据向量相似度计算算法计算所述第一向量和所述第二向量的相似度值,得到所述第一文本和所述第二文本的相似度结果。

【技术特征摘要】
1.一种文本语义相似度计算的方法,其特征在于,所述方法包括:将第一文本对应的第一词袋与第二文本对应的第二词袋中的词合并得到一个维度词袋,所述第一文本和第二文本为进行相似度计算的文本,所述第一词袋中的词为第一文本进行分词得到的词,所述第二词袋中的词为第二文本进行分词得到的词;根据基于语义的词转换向量工具对所述第一词袋以及所述第二词袋进行向量化计算,得到第一向量和第二向量,所述第一向量和所述第二向量的维度与所述维度词袋中的词一一对应;根据向量相似度计算算法计算所述第一向量和所述第二向量的相似度值,得到所述第一文本和所述第二文本的相似度结果。2.根据权利要求1所述的方法,其特征在于,所述根据基于语义的词转换向量工具对所述第一词袋以及所述第二词袋进行向量化计算,得到第一向量和第二向量,包括:根据基于语义的词转换向量工具计算维度词袋中每个词分别与第一词袋以及第二词袋中所有的词的相似度值;分别将维度词袋中每个词与所述第一词袋中所有词的相似度值的最大值确定为所述第一向量中对应维度的维度值,得到第一向量;分别将维度词袋中每个词与所述第二词袋中所有词的相似度值的最大值确定为所述第二向量中对应维度的维度值,得到第二向量。3.根据权利要求1中所述的方法,其特征在于,在将第一文本对应的第一词袋与第二文本对应的第二词袋中的词合并得到一个维度词袋之前,所述方法还包括:计算所述第一词袋中包含的词的数量与所述第二词袋中包含的词的数量的比值,所述第一词袋中包含的词的数量大于等于所述第二词袋中包含的词的数量;比较所述比值与预设比值的大小;若所述比值超过预设比值,则对所述第一词袋进行词截取,以使所述比值减小到预设比值内;若所述比值未超过预设比值,则执行将第一文本对应的第一词袋与第二文本对应的第二词袋中的词合并得到一个维度词袋。4.根据权利要求1所述的方法,其特征在于,在将第一文本对应的第一词袋与第二文本对应的第二词袋中的词合并得到一个维度词袋之前,所述方法还包括:判断所述第一词袋与所述第二词袋中包含的词的数量是否大于预设阈值;若所述第一词袋和/或所述第二词袋中包含的词的数量大于预设阈值,则对所述第一词袋和/或所述第二词袋进行词截取,以使所述第一词袋和/或所述第二词袋中词的数量减少到设预设阈值内。5.根据权利要求3或4中所述的方法,其特征在于,对所述第一词袋和/或所述第二词袋进行词截取包括:计算所述第一词袋和/或所述第二词袋中每个词的重要程度TFIDF值;按照TFIDF值的大小顺序对所述第一词袋和/或所述第二词袋中的词进行排序;按照排序后的结果顺序提取预设数量的词。6.一种文本语义相似度计算的装置,其特征在于,所述装置包括:合并...

【专利技术属性】
技术研发人员:赵耕弘
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1