The embodiment of the present invention provides a text similarity calculation method and device, and an intelligent robot. The embodiment of the present invention uses a predefined vocabulary library to select business-related vocabulary from the vocabulary of two texts, and then calculates the text similarity by using the obtained business-related vocabulary and the vocabulary intersection of two texts. The technical scheme effectively improves the accuracy of text similarity calculation, and overcomes the shortcomings of the existing technology that the accuracy of text similarity calculated only by words in the text is not high. Furthermore, chat robots or intelligent robots can provide users with more accurate answers by using accurate text similarity, which improves the service quality and user experience of chat robots or intelligent robots.
【技术实现步骤摘要】
文本相似度计算方法及装置、智能机器人
本专利技术实施例涉及文本处理
,并且更具体地,涉及一种文本相似度计算方法及装置、智能机器人。
技术介绍
聊天机器人是在大数据及人工智能技术驱动下产生的一个热门应用,在使用过程中,用户输入聊天内容,即用户输入其提出的问题,聊天机器人根据用户输入的问题,自动生成相应的回复,并反馈给用户。这种人工智能的处理方式能够在很大程度上提高服务效率和用户的体验度。目前存在多种类型的聊天机器人,比如苹果公司的Siri、微软公司的微软小娜(Cortana)与小冰、百度公司的度秘以及京东公司JIMI(JD,InstantMessagingIntelligence),此外还有很多其他类型的聊天机器人,比如儿童教育机器人、车载控制机器人等。在利用聊天机器人进行智能问答的实际应用场景中,用户向聊天机器人提出问题,聊天机器人从用户提出的问题中提取到关键信息,并根据关键信息从知识库中的选取相似的一个或多个预制问题,之后计算用户提出的问题与每个预制问题的相似度,并判断最大的相似度是否大于预定的置信度,如果大于预定的置信度,则将最大的相似度对应的预制问题的答复反馈给客户,完成智能机器人的一次智能问答。以上,不管是用户提出的问题,还是知识库中存储的预制问题都是以文本的形式存在,计算用户提出的问题与每个预制问题的相似度,实质上是计算两个文本的相似度。但是由于用户的表达习惯、地域以及文化水平的差异,对于同一问题会有很多种不同的表达方式,具体表现在用户对同一问题的描述在提问风格以及提问长度等方面的区别很大,并且在用户的问题中可能会掺杂很多和业务不相关的词汇 ...
【技术保护点】
1.一种文本相似度计算方法,其特征在于,所述方法包括如下步骤:分别对所述第一文本和第二文本进行分词处理,得到第一词汇集合和第二词汇集合;计算所述第一词汇集合与所述第二词汇集合的交集,得到第一目标集合;计算所述第一词汇集合与所述第二词汇集合的并集,得到第二目标集合;从所述第二目标集合中筛选出包含在预定词汇库中的词汇,得到第三目标集合;利用所述第一目标集合中每个词汇的预定权重和所述第三目标集合中每个词汇的预定权重,计算得到所述第一文本和第二文本的相似度。
【技术特征摘要】
1.一种文本相似度计算方法,其特征在于,所述方法包括如下步骤:分别对所述第一文本和第二文本进行分词处理,得到第一词汇集合和第二词汇集合;计算所述第一词汇集合与所述第二词汇集合的交集,得到第一目标集合;计算所述第一词汇集合与所述第二词汇集合的并集,得到第二目标集合;从所述第二目标集合中筛选出包含在预定词汇库中的词汇,得到第三目标集合;利用所述第一目标集合中每个词汇的预定权重和所述第三目标集合中每个词汇的预定权重,计算得到所述第一文本和第二文本的相似度。2.根据权利要求1所述的方法,其特征在于,所述方法还包括如下步骤:获取若干个第一预定文本;其中,所述第一预定文本与所述第一文本和/或所述第二文本为业务相关文本;对每个所述第一预定文本进行分词处理,得到若干个第一预定词汇;统计每个所述第一预定词汇出现的次数,得到每个所述第一预定词汇的词频;选取前N个词频最大的所述第一预定词汇,形成所述预定词汇库,其中N为正整数。3.根据权利要求1所述的方法,其特征在于,所述方法还包括如下步骤:获取若干个第二预定文本;其中,所述第二预定文本与所述第一文本和/或所述第二文本为业务相关文本;对每个所述第二预定文本进行分词处理,得到若干个第二预定词汇;计算每个所述第二预定词汇出现的次数与所述第二预定文本的数量的商,得到每个所述第二预定词汇的频率;筛选频率大于预定值的所述第二预定词汇,得到所述预定词汇库。4.根据权利要求1所述的方法,其特征在于,所述利用所述第一目标集合中每个词汇的预定权重和所述第三目标集合中每个词汇的预定权重,计算得到所述第一文本和第二文本的相似度,包括:计算所述第一目标集合中所有词汇的预定权重的和,得到第一权重和;计算所述第三目标集合中所有词汇的预定权重的和,得到第二权重和;计算所述第一权重和与所述第二权重和的商,得到所述第一文本和第二文本的相似度。5.根据权利要求1所述的方法,其特征在于,所述方法还包括如下步骤:获取所述第一目标集合中所有词汇的预定权重;获取所述第三目标集合中所有词汇的预定权重。6.一种文本相似度计算装置,其特征在于,所述装置包括:第一集合生成模块,用于分别对所述第一文本和第二文本进行分词处理,得到第一词汇集合和第二词汇集合;集合处理模块,用于计算所述第一词汇集合与所述第二词汇集合的交集,得到第一目标集合;计算所述第一词汇集合与所述第二词汇集合的并集,得到第二目标集合;第二集合生成模块,用于从所述第二目标...
【专利技术属性】
技术研发人员:杨凯程,李健铨,蒋宏飞,
申请(专利权)人:北京玄一科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。