The invention discloses a method and a device for calculating text semantic similarity, relating to the technical field of Natural Language Processing, and solving the problem that the existing text similarity calculation method has low accuracy. The method of the invention comprises the bag bag of words second words first and second text corresponding to the first text in the corresponding words with a bag of words based on semantic dimension; word vector conversion tool for the first word and the second word bag bag vectorzation based on the first and second vector vector, the first vector and the second vector dimension and the dimension of the words in the corresponding bag of words; according to the similarity computation of vector similarity algorithm to calculate the first vector and the second vectors, obtained the first text and the second text similarity results. The invention is applied to the process of text similarity calculation.
【技术实现步骤摘要】
文本语义相似度计算的方法及装置
本专利技术涉及自然语言处理
,尤其涉及一种文本语义相似度计算的方法及装置。
技术介绍
在自然语言处理过程中,计算文本间相似度是文本处理的基础运算,利用文本间相似度,或者反方向计算出文本间距离,可以完成类似于文本查重,热点抽取,兴趣发现等功能。此外,利用文本间相似度作为前置运算,后续可以完成针对于大量文本进行聚类或者分类等复杂计算。而对于这种复杂运算,作为前置运算的文本相似度的精度直接影响着最终运算的结果。文本作为一种非结构化数据,在计算处理时通常被理解为无限维度的对象,所以在计算文本间相似度之前,需要进行结构化的降维处理。对于文本降维,目前常用的降维方式有根据词频统计进行降维,根据词的重要程度值(TermFrequency–InverseDocumentFrequency,TFIDF)值进行降维。但是,对于词频统计和TFIDF值等方式进行文本降维时,这种运算是单纯的基于词的出现概率来进行的,即只能在相同词的维度上进行相似度的计算,即使是同义的不同词维度也无法进行相似度的计算,而对于两篇文本中词维度不同的情况下,需要使用两篇文本中相同词的维度进行相似度计算,而仅使用相同词的维度很可能无法完整地反映文本的语义特征,因此最终计算得到的相似度结果通常不能较准确的反应文本间的语义相似度。
技术实现思路
鉴于上述问题,本专利技术提供一种文本语义相似度计算的方法及装置,用以解决现有的文本语义相似度计算方法准确性较低的问题。为解决上述技术问题,第一方面,本专利技术提供了一种文本语义相似度计算的方法,所述方法包括:将第一文本对应的第一词袋与 ...
【技术保护点】
一种文本语义相似度计算的方法,其特征在于,所述方法包括:将第一文本对应的第一词袋与第二文本对应的第二词袋中的词合并得到一个维度词袋,所述第一文本和第二文本为进行相似度计算的文本,所述第一词袋中的词为第一文本进行分词得到的词,所述第二词袋中的词为第二文本进行分词得到的词;根据基于语义的词转换向量工具对所述第一词袋以及所述第二词袋进行向量化计算,得到第一向量和第二向量,所述第一向量和所述第二向量的维度与所述维度词袋中的词一一对应;根据向量相似度计算算法计算所述第一向量和所述第二向量的相似度值,得到所述第一文本和所述第二文本的相似度结果。
【技术特征摘要】
1.一种文本语义相似度计算的方法,其特征在于,所述方法包括:将第一文本对应的第一词袋与第二文本对应的第二词袋中的词合并得到一个维度词袋,所述第一文本和第二文本为进行相似度计算的文本,所述第一词袋中的词为第一文本进行分词得到的词,所述第二词袋中的词为第二文本进行分词得到的词;根据基于语义的词转换向量工具对所述第一词袋以及所述第二词袋进行向量化计算,得到第一向量和第二向量,所述第一向量和所述第二向量的维度与所述维度词袋中的词一一对应;根据向量相似度计算算法计算所述第一向量和所述第二向量的相似度值,得到所述第一文本和所述第二文本的相似度结果。2.根据权利要求1所述的方法,其特征在于,所述根据基于语义的词转换向量工具对所述第一词袋以及所述第二词袋进行向量化计算,得到第一向量和第二向量,包括:根据基于语义的词转换向量工具计算维度词袋中每个词分别与第一词袋以及第二词袋中所有的词的相似度值;分别将维度词袋中每个词与所述第一词袋中所有词的相似度值的最大值确定为所述第一向量中对应维度的维度值,得到第一向量;分别将维度词袋中每个词与所述第二词袋中所有词的相似度值的最大值确定为所述第二向量中对应维度的维度值,得到第二向量。3.根据权利要求1中所述的方法,其特征在于,在将第一文本对应的第一词袋与第二文本对应的第二词袋中的词合并得到一个维度词袋之前,所述方法还包括:计算所述第一词袋中包含的词的数量与所述第二词袋中包含的词的数量的比值,所述第一词袋中包含的词的数量大于等于所述第二词袋中包含的词的数量;比较所述比值与预设比值的大小;若所述比值超过预设比值,则对所述第一词袋进行词截取,以使所述比值减小到预设比值内;若所述比值未超过预设比值,则执行将第一文本对应的第一词袋与第二文本对应的第二词袋中的词合并得到一个维度词袋。4.根据权利要求1所述的方法,其特征在于,在将第一文本对应的第一词袋与第二文本对应的第二词袋中的词合并得到一个维度词袋之前,所述方法还包括:判断所述第一词袋与所述第二词袋中包含的词的数量是否大于预设阈值;若所述第一词袋和/或所述第二词袋中包含的词的数量大于预设阈值,则对所述第一词袋和/或所述第二词袋进行词截取,以使所述第一词袋和/或所述第二词袋中词的数量减少到设预设阈值内。5.根据权利要求3或4中所述的方法,其特征在于,对所述第一词袋和/或所述第二词袋进行词截取包括:计算所述第一词袋和/或所述第二词袋中每个词的重要程度TFIDF值;按照TFIDF值的大小顺序对所述第一词袋和/或所述第二词袋中的词进行排序;按照排序后的结果顺序提取预设数量的词。6.一种文本语义相似度计算的装置,其特征在于,所述装置包括:合并...
【专利技术属性】
技术研发人员:赵耕弘,
申请(专利权)人:东软集团股份有限公司,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。