文本相似度计算方法及装置、智能机器人制造方法及图纸

技术编号:19342528 阅读:22 留言:0更新日期:2018-11-07 14:01
本发明专利技术实施例提供了一种文本相似度计算方法及装置、智能机器人,本发明专利技术实施例利用预定词汇库,从两个文本的词汇并集中选取业务相关的词汇,之后利用得到的业务相关词汇以及两个文本的词汇交集计算得到文本相似度,该技术方案有效提高了文本相似度的计算精度,克服了现有技术中只利用文本中的词汇计算得到的文本相似度精度不高的缺陷。进一步地,聊天机器人或智能机器人利用准确的文本相似度,能够为用户提供更加准确的答复,提高了聊天机器人或智能机器人的服务质量和用户的体验度。

Text similarity calculation method and device, intelligent robot

The embodiment of the present invention provides a text similarity calculation method and device, and an intelligent robot. The embodiment of the present invention uses a predefined vocabulary library to select business-related vocabulary from the vocabulary of two texts, and then calculates the text similarity by using the obtained business-related vocabulary and the vocabulary intersection of two texts. The technical scheme effectively improves the accuracy of text similarity calculation, and overcomes the shortcomings of the existing technology that the accuracy of text similarity calculated only by words in the text is not high. Furthermore, chat robots or intelligent robots can provide users with more accurate answers by using accurate text similarity, which improves the service quality and user experience of chat robots or intelligent robots.

【技术实现步骤摘要】
文本相似度计算方法及装置、智能机器人
本专利技术实施例涉及文本处理
,并且更具体地,涉及一种文本相似度计算方法及装置、智能机器人。
技术介绍
聊天机器人是在大数据及人工智能技术驱动下产生的一个热门应用,在使用过程中,用户输入聊天内容,即用户输入其提出的问题,聊天机器人根据用户输入的问题,自动生成相应的回复,并反馈给用户。这种人工智能的处理方式能够在很大程度上提高服务效率和用户的体验度。目前存在多种类型的聊天机器人,比如苹果公司的Siri、微软公司的微软小娜(Cortana)与小冰、百度公司的度秘以及京东公司JIMI(JD,InstantMessagingIntelligence),此外还有很多其他类型的聊天机器人,比如儿童教育机器人、车载控制机器人等。在利用聊天机器人进行智能问答的实际应用场景中,用户向聊天机器人提出问题,聊天机器人从用户提出的问题中提取到关键信息,并根据关键信息从知识库中的选取相似的一个或多个预制问题,之后计算用户提出的问题与每个预制问题的相似度,并判断最大的相似度是否大于预定的置信度,如果大于预定的置信度,则将最大的相似度对应的预制问题的答复反馈给客户,完成智能机器人的一次智能问答。以上,不管是用户提出的问题,还是知识库中存储的预制问题都是以文本的形式存在,计算用户提出的问题与每个预制问题的相似度,实质上是计算两个文本的相似度。但是由于用户的表达习惯、地域以及文化水平的差异,对于同一问题会有很多种不同的表达方式,具体表现在用户对同一问题的描述在提问风格以及提问长度等方面的区别很大,并且在用户的问题中可能会掺杂很多和业务不相关的词汇,进一步增加了问题的长度,即增加了文本的长度。现有技术中计算两个文本的相似度主要通过对文本进行分词,并利用得到各个词汇计算对应文本的相似度。其中存在的问题是,由于用户提出的问题对应的文本中包含很多不相关的词汇,导致计算的文本相似度偏低。例如某用户要咨询的问题是信用卡办理,其向聊天机器人提出文本的可能是“今天天气很好,我是湖南人,今年26岁,我想办理信用卡”,聊天机器人根据这个包含很多业务不相关词汇计算得到的相似度很可能无法大于预定的置信度,那么聊天机器人就无法为用户提供答复,严重影响了聊天机器人的服务质量以及用户的体验度。如果调整置信度则会影响到整个聊天机器人的答复效果,因此不能轻易调整置信度。为了克服上述由于文本中包含很多业务不相关词汇,导致计算的文本相似度值偏低的缺陷,现有技术中提出一种文本切分的处理方法,具体地,根据标点符号,将长文本分成若干个短文本,然后根据得到的短文本计算相似度。例如:“今天天气很好,我是湖南人,今年26岁,我想办理信用卡”。可以切分成四个短文本,即“今天天气很好”、“我是湖南人”、“今年26岁”以及“我想办理信用卡”。这种处理方式存在以下问题:第一、如果长文本中不包含标点符号,则无法进行文本切分;第二、文本切分之后要根据切分得到的文本的数量,进行若干次相似度计算,时效性无法保障,导致聊天机器人的服务效率降低;第三、长文本可能包含在若干个短文本,单独的一个短文本不能表达原来长文本的完整涵义,导致计算的到的相似度不准确。可见上述文本切分的方法也无法有效解决上述计算得到的长文本相似度偏低的缺陷。综上,现有技术中无法准确地计算包含较多的业务不相关词汇的文本的相似度,进一步地,由于计算得到的文本相似度不够准确,那么聊天机器人根据文本相似度为用户推送的答复也必定不够都准确,严重影响了聊天机器人的服务质量和用户的体验度。
技术实现思路
本专利技术实施例提供一种文本相似度计算方法及装置、智能机器人,其能够筛选出业务相关的词汇来计算两个文本的相似度,有效提高了文本相似度的计算精度,聊天机器人利用准确的文本相似度,能够为用户提供更加准确的答复,从而进一步提高了聊天机器人或智能机器人的服务质量和用户的体验度。第一方面,提供了一种文本相似度计算方法,所述方法包括如下步骤:分别对所述第一文本和第二文本进行分词处理,得到第一词汇集合和第二词汇集合;计算所述第一词汇集合与所述第二词汇集合的交集,得到第一目标集合;计算所述第一词汇集合与所述第二词汇集合的并集,得到第二目标集合;从所述第二目标集合中筛选出包含在预定词汇库中的词汇,得到第三目标集合;利用所述第一目标集合中每个词汇的预定权重和所述第三目标集合中每个词汇的预定权重,计算得到所述第一文本和第二文本的相似度。结合第一方面,在第一种可能的实现方式中,所述方法还包括如下步骤:获取若干个第一预定文本;其中,所述第一预定文本与所述第一文本和/或所述第二文本为业务相关文本;对每个所述第一预定文本进行分词处理,得到若干个第一预定词汇;统计每个所述第一预定词汇出现的次数,得到每个所述第一预定词汇的词频;选取前N个词频最大的所述第一预定词汇,形成所述预定词汇库,其中N为正整数。结合第一方面,在第二种可能的实现方式中,所述方法还包括如下步骤:获取若干个第二预定文本;其中,所述第二预定文本与所述第一文本和/或所述第二文本为业务相关文本;对每个所述第二预定文本进行分词处理,得到若干个第二预定词汇;计算每个所述第二预定词汇出现的次数与所述第二预定文本的数量的商,得到每个所述第二预定词汇的频率;筛选频率大于预定值的所述第二预定词汇,得到所述预定词汇库。结合第一方面,在第三种可能的实现方式中,所述利用所述第一目标集合中每个词汇的预定权重和所述第三目标集合中每个词汇的预定权重,计算得到所述第一文本和第二文本的相似度,包括:计算所述第一目标集合中所有词汇的预定权重的和,得到第一权重和;计算所述第三目标集合中所有词汇的预定权重的和,得到第二权重和;计算所述第一权重和与所述第二权重和的商,得到所述第一文本和第二文本的相似度。结合第一方面,在第四种可能的实现方式中,所述方法还包括如下步骤:获取所述第一目标集合中所有词汇的预定权重;获取所述第三目标集合中所有词汇的预定权重。第二方面,提供了一种文本相似度计算装置,所述装置包括:第一集合生成模块,用于分别对所述第一文本和第二文本进行分词处理,得到第一词汇集合和第二词汇集合;集合处理模块,用于计算所述第一词汇集合与所述第二词汇集合的交集,得到第一目标集合;计算所述第一词汇集合与所述第二词汇集合的并集,得到第二目标集合;第二集合生成模块,用于从所述第二目标集合中筛选出包含在预定词汇库中的词汇,得到第三目标集合;相似度计算模块,用于利用所述第一目标集合中每个词汇的预定权重和所述第三目标集合中每个词汇的预定权重,计算得到所述第一文本和第二文本的相似度。结合第二方面,在第一种可能的实现方式中,所述装置还包括:第一预定文本获取模块,用于获取若干个第一预定文本;其中,所述第一预定文本与所述第一文本和/或所述第二文本为业务相关文本;第一预定词汇获取模块,用于对每个所述第一预定文本进行分词处理,得到若干个第一预定词汇;词频统计模块,用于统计每个所述第一预定词汇出现的次数,得到每个所述第一预定词汇的词频;第一预定词汇库生成模块,用于选取前N个词频最大的所述第一预定词汇,形成所述预定词汇库,其中N为正整数。结合第二方面,在第二种可能的实现方式中,所述装置还包括:第二预定文本获取模块,用于获取若干个第二预定文本;本文档来自技高网
...

【技术保护点】
1.一种文本相似度计算方法,其特征在于,所述方法包括如下步骤:分别对所述第一文本和第二文本进行分词处理,得到第一词汇集合和第二词汇集合;计算所述第一词汇集合与所述第二词汇集合的交集,得到第一目标集合;计算所述第一词汇集合与所述第二词汇集合的并集,得到第二目标集合;从所述第二目标集合中筛选出包含在预定词汇库中的词汇,得到第三目标集合;利用所述第一目标集合中每个词汇的预定权重和所述第三目标集合中每个词汇的预定权重,计算得到所述第一文本和第二文本的相似度。

【技术特征摘要】
1.一种文本相似度计算方法,其特征在于,所述方法包括如下步骤:分别对所述第一文本和第二文本进行分词处理,得到第一词汇集合和第二词汇集合;计算所述第一词汇集合与所述第二词汇集合的交集,得到第一目标集合;计算所述第一词汇集合与所述第二词汇集合的并集,得到第二目标集合;从所述第二目标集合中筛选出包含在预定词汇库中的词汇,得到第三目标集合;利用所述第一目标集合中每个词汇的预定权重和所述第三目标集合中每个词汇的预定权重,计算得到所述第一文本和第二文本的相似度。2.根据权利要求1所述的方法,其特征在于,所述方法还包括如下步骤:获取若干个第一预定文本;其中,所述第一预定文本与所述第一文本和/或所述第二文本为业务相关文本;对每个所述第一预定文本进行分词处理,得到若干个第一预定词汇;统计每个所述第一预定词汇出现的次数,得到每个所述第一预定词汇的词频;选取前N个词频最大的所述第一预定词汇,形成所述预定词汇库,其中N为正整数。3.根据权利要求1所述的方法,其特征在于,所述方法还包括如下步骤:获取若干个第二预定文本;其中,所述第二预定文本与所述第一文本和/或所述第二文本为业务相关文本;对每个所述第二预定文本进行分词处理,得到若干个第二预定词汇;计算每个所述第二预定词汇出现的次数与所述第二预定文本的数量的商,得到每个所述第二预定词汇的频率;筛选频率大于预定值的所述第二预定词汇,得到所述预定词汇库。4.根据权利要求1所述的方法,其特征在于,所述利用所述第一目标集合中每个词汇的预定权重和所述第三目标集合中每个词汇的预定权重,计算得到所述第一文本和第二文本的相似度,包括:计算所述第一目标集合中所有词汇的预定权重的和,得到第一权重和;计算所述第三目标集合中所有词汇的预定权重的和,得到第二权重和;计算所述第一权重和与所述第二权重和的商,得到所述第一文本和第二文本的相似度。5.根据权利要求1所述的方法,其特征在于,所述方法还包括如下步骤:获取所述第一目标集合中所有词汇的预定权重;获取所述第三目标集合中所有词汇的预定权重。6.一种文本相似度计算装置,其特征在于,所述装置包括:第一集合生成模块,用于分别对所述第一文本和第二文本进行分词处理,得到第一词汇集合和第二词汇集合;集合处理模块,用于计算所述第一词汇集合与所述第二词汇集合的交集,得到第一目标集合;计算所述第一词汇集合与所述第二词汇集合的并集,得到第二目标集合;第二集合生成模块,用于从所述第二目标...

【专利技术属性】
技术研发人员:杨凯程李健铨蒋宏飞
申请(专利权)人:北京玄一科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1