The embodiment of the present invention provides a text similarity calculation method and device, and an intelligent robot. The embodiment of the present invention first obtains the longest common subsequence of two texts, then calculates the intersection and union of the corresponding vocabulary sets of two texts, and then obtains the first similarity based on the intersection and union obtained. The vocabulary set corresponding to the longest common subsequence mentioned above and the previous union set are used to calculate the second similarity. Finally, the target similarity of the two texts is calculated based on the first similarity and the second similarity. The above technical scheme combines the longest common subsequence and each vocabulary in the text to calculate the similarity between the two texts, which effectively improves the accuracy of text similarity calculation. Furthermore, chat robots or intelligent robots can provide users with more accurate answers by using accurate text similarity, which improves the service quality and user experience of chat machines or intelligent robots.
【技术实现步骤摘要】
文本相似度计算方法及装置、智能机器人
本专利技术实施例涉及文本处理
,并且更具体地,涉及一种文本相似度计算方法及装置、智能机器人。
技术介绍
聊天机器人是在大数据及人工智能技术驱动下产生的一个热门应用,在使用过程中,用户输入聊天内容,即用户输入其提出的问题,聊天机器人根据用户输入的问题,自动生成相应的回复,并反馈给用户。这种人工智能的处理方式能够在很大程度上提高服务效率和用户的体验度。目前存在多种类型的聊天机器人,比如苹果公司的Siri、微软公司的微软小娜(Cortana)与小冰、百度公司的度秘以及京东公司JIMI(JD,InstantMessagingIntelligence),此外还有很多其他类型的聊天机器人,比如儿童教育机器人、车载控制机器人等。在利用聊天机器人进行智能问答的实际应用场景中,用户向聊天机器人提出问题,聊天机器人从用户提出的问题中提取到关键信息,并根据关键信息从知识库中选取相似的一个或多个预制问题,之后计算用户提出的问题与每个预制问题的相似度,并选取相似度最大的预制问题,最后将选取得到的与用户提出的问题相似度最大的预制问题,对应的答复反馈给客户,完成一次智能机器人的智能问答。以上不管是用户提出的问题,还是知识库中存储的预制问题都是以文本的形式存在,计算用户提出的问题与每个预制问题的相似度,实质上是计算两个文本的相似度。现有技术中计算两个文本的相似度主要通过对文本进行分词,并利用得到各个词汇计算对应文本的相似度。其中存在的问题是各个单独的词汇并不能准确的表达对应文本的原始意义,这就造成了利用各个词汇计算得到的文本之间的相似度不准确, ...
【技术保护点】
1.一种文本相似度计算方法,其特征在于,所述方法包括:获取第一文本和第二文本的最长公共子序列;分别对所述第一文本、第二文本和最长公共子序列进行分词处理,得到第一词汇集合、第二词汇集合和第三词汇集合;计算所述第一词汇集合与所述第二词汇集合的交集,得到第一目标集合;计算所述第一词汇集合与所述第二词汇集合的并集,得到第二目标集合;利用所述第一目标集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第一相似度;利用第三词汇集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第二相似度;根据所述第一相似度和第二相似度,计算所述第一文本和第二文本的目标相似度。
【技术特征摘要】
1.一种文本相似度计算方法,其特征在于,所述方法包括:获取第一文本和第二文本的最长公共子序列;分别对所述第一文本、第二文本和最长公共子序列进行分词处理,得到第一词汇集合、第二词汇集合和第三词汇集合;计算所述第一词汇集合与所述第二词汇集合的交集,得到第一目标集合;计算所述第一词汇集合与所述第二词汇集合的并集,得到第二目标集合;利用所述第一目标集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第一相似度;利用第三词汇集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第二相似度;根据所述第一相似度和第二相似度,计算所述第一文本和第二文本的目标相似度。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一相似度和第二相似度,计算所述第一文本和第二文本的目标相似度,包括:获取所述第一相似度对应的第一相似权重;获取所述第二相似度对应的第二相似权重;利用所述第一相似度、第一相似权重、第二相似度和第二相似权重,计算所述第一文本和第二文本的目标相似度。3.根据权利要求2所述的方法,其特征在于,所述方法利用如下公式计算所述第一文本和第二文本的目标相似度:Score=t1×Score1+t2×Score2式中,Score表示所述目标相似度,Score1表示所述第一相似度,Score2表示所述第二相似度,t1表示所述第一相似权重,t2表示所述第二相似权重。4.根据权利要求1所述的方法,其特征在于,所述利用第三词汇集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第二相似度,包括:计算所述第三词汇集合中所有词汇的预定权重的和,得到第一权重和;计算所述第二目标集合中所有词汇的预定权重的和,得到第二权重和;计算所述第一权重和与所述第二权重和的商,得到所述第二相似度。5.根据权利要求4所述的方法,其特征在于,所述利用所述第一目标集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第一相似度,包括:计算所述第一目标集合中所有词汇的预定权重的和,得到第三权重和;计算所述第三权重和与所述第二权重和的商,得到所述第一相似度。6.一种文本相似度计算装置,其特征在于,所述装置包括:子序列获取模块,用于获取第一文本和第二文本的最长公共子序列;分词模块,用于分别对所述第一文本、第二文本和最长公共子序列进行分词处理,得到第一词汇集合、第二词汇集合和第三词汇集合;集合处理模块,用于计算所述第一词汇集合与所述第二词汇集合的交集,得到第一目标...
【专利技术属性】
技术研发人员:杨凯程,李健铨,蒋宏飞,
申请(专利权)人:北京玄一科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。