文本相似度计算方法及装置、智能机器人制造方法及图纸

技术编号:19342531 阅读:26 留言:0更新日期:2018-11-07 14:01
本发明专利技术实施例提供了一种文本相似度计算方法及装置、智能机器人,本发明专利技术实施例首先获取两个文本的最长公共子序列,之后对两个文本对应的词汇集合计算交集和并集,之后根据得到的交集和并集计算得到第一相似度,利用上述最长公共子序列对应的词汇集合以及之前得到的并集计算第二相似度,最后根据第一相似度和第二相似度计算得到两个文本的目标相似度。上述技术方案结合最长公共子序列以及文本中各个词汇,计算两个文本的相似度,有效提高了文本相似度的计算精度。进一步地,聊天机器人或智能机器人利用准确的文本相似度,能够为用户提供更加准确的答复,提高了聊天机器或智能机器人人的服务质量和用户的体验度。

Text similarity calculation method and device, intelligent robot

The embodiment of the present invention provides a text similarity calculation method and device, and an intelligent robot. The embodiment of the present invention first obtains the longest common subsequence of two texts, then calculates the intersection and union of the corresponding vocabulary sets of two texts, and then obtains the first similarity based on the intersection and union obtained. The vocabulary set corresponding to the longest common subsequence mentioned above and the previous union set are used to calculate the second similarity. Finally, the target similarity of the two texts is calculated based on the first similarity and the second similarity. The above technical scheme combines the longest common subsequence and each vocabulary in the text to calculate the similarity between the two texts, which effectively improves the accuracy of text similarity calculation. Furthermore, chat robots or intelligent robots can provide users with more accurate answers by using accurate text similarity, which improves the service quality and user experience of chat machines or intelligent robots.

【技术实现步骤摘要】
文本相似度计算方法及装置、智能机器人
本专利技术实施例涉及文本处理
,并且更具体地,涉及一种文本相似度计算方法及装置、智能机器人。
技术介绍
聊天机器人是在大数据及人工智能技术驱动下产生的一个热门应用,在使用过程中,用户输入聊天内容,即用户输入其提出的问题,聊天机器人根据用户输入的问题,自动生成相应的回复,并反馈给用户。这种人工智能的处理方式能够在很大程度上提高服务效率和用户的体验度。目前存在多种类型的聊天机器人,比如苹果公司的Siri、微软公司的微软小娜(Cortana)与小冰、百度公司的度秘以及京东公司JIMI(JD,InstantMessagingIntelligence),此外还有很多其他类型的聊天机器人,比如儿童教育机器人、车载控制机器人等。在利用聊天机器人进行智能问答的实际应用场景中,用户向聊天机器人提出问题,聊天机器人从用户提出的问题中提取到关键信息,并根据关键信息从知识库中选取相似的一个或多个预制问题,之后计算用户提出的问题与每个预制问题的相似度,并选取相似度最大的预制问题,最后将选取得到的与用户提出的问题相似度最大的预制问题,对应的答复反馈给客户,完成一次智能机器人的智能问答。以上不管是用户提出的问题,还是知识库中存储的预制问题都是以文本的形式存在,计算用户提出的问题与每个预制问题的相似度,实质上是计算两个文本的相似度。现有技术中计算两个文本的相似度主要通过对文本进行分词,并利用得到各个词汇计算对应文本的相似度。其中存在的问题是各个单独的词汇并不能准确的表达对应文本的原始意义,这就造成了利用各个词汇计算得到的文本之间的相似度不准确,例如有两个文本:我喜欢你和你喜欢我,这两个文本的意义完全不同,但是两个文本分词后的词汇完全相同,那么利用现有技术计算得到的这两个文本的相似度是1,显然这是不准确的。进一步地,由于现有技术中计算文本的相似度不够准确,那么聊天机器人根据文本相似度为用户推送的答复也必定不够都准确,严重影响了聊天机器人的服务质量和用户的体验度。
技术实现思路
本专利技术实施例提供了一种文本相似度计算方法及装置、智能机器人,其能够结合最长公共子序列以及文本中各个词汇,计算两个文本的相似度,有效提高了文本相似度的计算精度,聊天机器人或智能机器人利用准确的文本相似度,能够为用户提供更加准确的答复,从而进一步提高了聊天机器人或智能机器人的服务质量和用户的体验度。第一方面,提供了一种文本相似度计算方法,所述方法包括:获取第一文本和第二文本的最长公共子序列;分别对所述第一文本、第二文本和最长公共子序列进行分词处理,得到第一词汇集合、第二词汇集合和第三词汇集合;计算所述第一词汇集合与所述第二词汇集合的交集,得到第一目标集合;计算所述第一词汇集合与所述第二词汇集合的并集,得到第二目标集合;利用所述第一目标集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第一相似度;利用第三词汇集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第二相似度;根据所述第一相似度和第二相似度,计算所述第一文本和第二文本的目标相似度。结合第一方面,在第一种可能的实现方式中,所述根据所述第一相似度和第二相似度,计算所述第一文本和第二文本的目标相似度,包括:获取所述第一相似度对应的第一相似权重;获取所述第二相似度对应的第二相似权重;利用所述第一相似度、第一相似权重、第二相似度和第二相似权重,计算所述第一文本和第二文本的目标相似度。结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述方法利用如下公式计算所述第一文本和第二文本的目标相似度:Score=t1×Score1+t2×Score2式中,Score表示所述目标相似度,Score1表示所述第一相似度,Score2表示所述第二相似度,t1表示所述第一相似权重,t2表示所述第二相似权重。结合第一方面,在第三种可能的实现方式中,所述利用第三词汇集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第二相似度,包括:计算所述第三词汇集合中所有词汇的预定权重的和,得到第一权重和;计算所述第二目标集合中所有词汇的预定权重的和,得到第二权重和;计算所述第一权重和与所述第二权重和的商,得到所述第二相似度。结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述利用所述第一目标集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第一相似度,包括:计算所述第一目标集合中所有词汇的预定权重的和,得到第三权重和;计算所述第三权重和与所述第二权重和的商,得到所述第一相似度。第二方面,提供了一种文本相似度计算装置,所述装置包括:子序列获取模块,用于获取第一文本和第二文本的最长公共子序列;分词模块,用于分别对所述第一文本、第二文本和最长公共子序列进行分词处理,得到第一词汇集合、第二词汇集合和第三词汇集合;集合处理模块,用于计算所述第一词汇集合与所述第二词汇集合的交集,得到第一目标集合;计算所述第一词汇集合与所述第二词汇集合的并集,得到第二目标集合;子相似度确定模块,用于利用所述第一目标集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第一相似度,以及利用第三词汇集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第二相似度;目标相似度确定模块,用于根据所述第一相似度和第二相似度,计算所述第一文本和第二文本的目标相似度。结合第二方面,在第一种可能的实现方式中,所述目标相似度确定模块包括:相似权重获取子模块,用于获取所述第一相似度对应的第一相似权重,以及获取所述第二相似度对应的第二相似权重;目标相似度计算子模块,用于利用所述第一相似度、第一相似权重、第二相似度和第二相似权重,计算所述第一文本和第二文本的目标相似度。结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述目标相似度计算子模块利用如下公式计算所述第一文本和第二文本的目标相似度:Score=t1×Score1+t2×Score2式中,Score表示所述目标相似度,Score1表示所述第一相似度,Score2表示所述第二相似度,t1表示所述第一相似权重,t2表示所述第二相似权重。结合第二方面,在第三种可能的实现方式中,所述子相似度确定模块包括:第一权重计算子模块,用于计算所述第三词汇集合中所有词汇的预定权重的和,得到第一权重和;第二权重计算子模块,用于计算所述第二目标集合中所有词汇的预定权重的和,得到第二权重和;第二相似度计算子模块,用于计算所述第一权重和与所述第二权重和的商,得到所述第二相似度。结合第二方面的第三种可能的实现方式,在第四种可能的实现方式中,所述子相似度确定模块还包括:第三权重计算子模块,用于计算所述第一目标集合中所有词汇的预定权重的和,得到第三权重和;第一相似度计算子模块,用于计算所述第三权重和与所述第二权重和的商,得到所述第一相似度。第三方面,本申请还提供了一种智能机器人,所述智能机器人包括:文本接收部件,用于接收第一文本,所述第一文本为用户提问文本;文本获取部件,用于从预定问答库中获取至少一个第二文本,所述第二文本为标准问题文本;所述预定问答库包括至少一个标准问题文本和每个标准问题文本对应的标准答案本文档来自技高网
...

【技术保护点】
1.一种文本相似度计算方法,其特征在于,所述方法包括:获取第一文本和第二文本的最长公共子序列;分别对所述第一文本、第二文本和最长公共子序列进行分词处理,得到第一词汇集合、第二词汇集合和第三词汇集合;计算所述第一词汇集合与所述第二词汇集合的交集,得到第一目标集合;计算所述第一词汇集合与所述第二词汇集合的并集,得到第二目标集合;利用所述第一目标集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第一相似度;利用第三词汇集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第二相似度;根据所述第一相似度和第二相似度,计算所述第一文本和第二文本的目标相似度。

【技术特征摘要】
1.一种文本相似度计算方法,其特征在于,所述方法包括:获取第一文本和第二文本的最长公共子序列;分别对所述第一文本、第二文本和最长公共子序列进行分词处理,得到第一词汇集合、第二词汇集合和第三词汇集合;计算所述第一词汇集合与所述第二词汇集合的交集,得到第一目标集合;计算所述第一词汇集合与所述第二词汇集合的并集,得到第二目标集合;利用所述第一目标集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第一相似度;利用第三词汇集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第二相似度;根据所述第一相似度和第二相似度,计算所述第一文本和第二文本的目标相似度。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一相似度和第二相似度,计算所述第一文本和第二文本的目标相似度,包括:获取所述第一相似度对应的第一相似权重;获取所述第二相似度对应的第二相似权重;利用所述第一相似度、第一相似权重、第二相似度和第二相似权重,计算所述第一文本和第二文本的目标相似度。3.根据权利要求2所述的方法,其特征在于,所述方法利用如下公式计算所述第一文本和第二文本的目标相似度:Score=t1×Score1+t2×Score2式中,Score表示所述目标相似度,Score1表示所述第一相似度,Score2表示所述第二相似度,t1表示所述第一相似权重,t2表示所述第二相似权重。4.根据权利要求1所述的方法,其特征在于,所述利用第三词汇集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第二相似度,包括:计算所述第三词汇集合中所有词汇的预定权重的和,得到第一权重和;计算所述第二目标集合中所有词汇的预定权重的和,得到第二权重和;计算所述第一权重和与所述第二权重和的商,得到所述第二相似度。5.根据权利要求4所述的方法,其特征在于,所述利用所述第一目标集合中每个词汇的预定权重和所述第二目标集合中每个词汇的预定权重计算第一相似度,包括:计算所述第一目标集合中所有词汇的预定权重的和,得到第三权重和;计算所述第三权重和与所述第二权重和的商,得到所述第一相似度。6.一种文本相似度计算装置,其特征在于,所述装置包括:子序列获取模块,用于获取第一文本和第二文本的最长公共子序列;分词模块,用于分别对所述第一文本、第二文本和最长公共子序列进行分词处理,得到第一词汇集合、第二词汇集合和第三词汇集合;集合处理模块,用于计算所述第一词汇集合与所述第二词汇集合的交集,得到第一目标...

【专利技术属性】
技术研发人员:杨凯程李健铨蒋宏飞
申请(专利权)人:北京玄一科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1