智能问答的方法、装置及系统制造方法及图纸

技术编号:13798117 阅读:211 留言:0更新日期:2016-10-06 20:30
本申请实施例提供了一种智能问答的方法、装置及系统,其中所述方法包括:接收客户端发送的提问关键词,将所述提问关键词进行分词处理,得到一个或多个第一分词;基于所述一个或多个第一分词,获取与所述提问关键词匹配的候选建议词的集合,所述候选建议词为预设数据库中包含所述一个或多个第一分词的词;计算所述一个或多个第一分词的权重;依据所述一个或多个第一分词的权重,计算所述提问关键词与各候选建议词的相似度;将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述客户端。本申请实施例可以提升智能问答过程中的结果推荐准确率。

【技术实现步骤摘要】

本申请涉及信息推荐
,特别是涉及一种智能问答的方法,以及,一种智能问答的装置,以及,一种智能问答系统。
技术介绍
随着互联网服务的日益发展,越来越多的互联网企业需要提供在线客户服务(简称在线客服)来解决客户的问题。很显然,通过人工客服的方式不能应对海量的用户问答请求,这就需要一种智能问答系统来通过自动回复的方式来解决用户的诉求。智能问答系统一种为了解决用户的问答需求的系统,其系统底层是一个排序系统,通过理解用户的提问来为用户推荐比较合适的问题答案。现有的智能问答系统的基本流程为:1.通过用户的问答Query(关键词)来检索知识库;2.计算问答Query与知识库中知识点title的相似度;3.将相似度值最大的结果返回给用户。其中在计算相似度时,涉及到对问答Query进行分词得到分词Term,以及每个分词Term的权重的问题。对于分词Term的权重,现有的方法有:方法一,不特殊设置权重,每个分词Term的权重相同;方法二,通过规则的方法,为不同类型的分词Term设置不同的权重。然而,目前的两种分词权重设置方式存在如下缺陷:(1)方法一不能把不同分词Term有效区分开,使相似度计算结果区分度不够高,实际应用效果不理想;(2)方法二中的人工设置权重的方法不方便进行系统调优,需要经过多轮迭代才能找到合适的权重设置规则,构建成本高;(3)方法二中,给不同类型Term设置不同权重,这种权重设置需要人工的先验知识,不能随着系统的演进进行调整,维护成本高。以上三种缺陷都有可能影响相似度的计算结果,进而影响到智能问答系统最终的推荐效果。因此,目前需要本领域技术人员迫切解决的一个技术问题就是:提供一种智能问答机制,以提升智能问答过程中的结果推荐准确率。
技术实现思路
本申请实施例所要解决的技术问题是提供一种智能问答的方法,以提升智能问答过程中的结果推荐准确率。相应的,本申请实施例还提供了一种智能问答的装置及一种智能问答系统,用以保证上述方法的实现及应用。为了解决上述问题,本申请公开了一种智能问答的方法,所述方法包括:接收客户端发送的提问关键词,将所述提问关键词进行分词处理,得到一个或多个第一分词;基于所述一个或多个第一分词,获取与所述提问关键词匹配的候选建议词的集合,所述候选建议词为预设数据库中包含所述一个或多个第一分词的词;计算所述一个或多个第一分词的权重;依据所述一个或多个第一分词的权重,计算所述提问关键词与各候选建议词的相似度;将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述客户端。优选地,所述依据所述一个或多个第一分词的权重,计算所述提问关键词与各候选建议词的相似度的步骤包括:对所述候选建议词的集合中的候选建议词进行分词处理,得到对应的一个或多个第二分词;计算所述一个或多个第二分词的权重;将所述一个或多个第一分词的权重,组织成所述提问关键词的向量信息;将每个候选建议词对应的一个或多个第二分词的权重,组织成对应的候选建议词的向量信息;采用所述提问关键词的向量信息与各候选建议词的向量信息,计算所述提问关键词与各候选建议词的相似度。优选地,所述计算所述一个或多个第一分词的权重的步骤包括:分别提取所述第一分词的多个特征信息;获取所述多个特征信息的权重;汇总所述多个特征信息的权重,得到所述第一分词的权重。优选地,所述获取所述多个特征信息的权重的步骤为:加载预先生成的权重计算模型,所述权重计算模型包括多个特征信息及对应的权重的映射关系;在所述权重计算模型中查询所述特征信息的权重。优选地,所述权重计算模型按照如下方式生成:查询日志记录,获取在先提问关键词及对应的建议词,其中,所述建议词为预设数据库中包含所述在先提问关键词的一个或多个分词的词;依据所述在先提问关键词及对应的建议词,构建所述在先提问关键词与所述建议词的组合;基于所述在先提问关键词与所述建议词的组合,映射出分词组合,所述分词组合为对所述在先提问关键词进行分词处理及对所述建议词进行分词处理后,得到的分词的组合;针对所说分词组合中的每个分词,分别提取预置的多个特征信息,形成特征信息组合;对所述特征信息组合进行模型训练,得到权重计算模型。优选地,所述基于所述在先提问关键词与所述建议词的组合,映射出分词组合的步骤包括:基于所述在先提问关键词与所述建议词的组合,分别对所述在先提问关键词及所述建议词进行分词处理,得到分词列表;基于所述分词列表,获得相同分词列表及不同分词列表,并定义相同
分词与不同分词列表的关系为:相同分词列表>不同分词列表;结合所述相同分词列表与所述不同分词列表的关系,构建分词组合。优选地,所述对所述特征信息组合进行模型训练,得到权重计算模型的步骤包括:将所述特征信息组合转换为特定样本格式的特征信息组合;通过排序向量空间模型算法RankSVM对所述特定样本格式的特征信息组合进行建模,获得权重计算模型。优选地,所述特征信息至少包括如下信息:词频TF、逆文档频率IDF、TF*IDF、BM25、分词长度LEN、类目信息、词性信息。优选地,在所述对所述特征信息组合进行模型训练,得到权重计算模型的步骤之后,还包括:依据所述日志记录更新所述权重计算模型。优选地,所述将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述客户端的步骤包括:将所述相似度排序在前的N个候选建议词及对应的答案信息返回所述客户端,其中N为正整数;或者,将所述相似度大于预设阈值的候选建议词及对应的答案信息返回所述客户端。本申请还公开了一种智能问答的装置,所述装置包括:第一分词模块,用于接收客户端发送的提问关键词,将所述提问关键词进行分词处理,得到一个或多个第一分词;候选建议词获取模块,用于基于所述一个或多个第一分词,获取与所述提问关键词匹配的候选建议词的集合,所述候选建议词为预设数据库中包含所述一个或多个第一分词的词;第一权重计算模块,用于计算所述一个或多个第一分词的权重;相似度计算模块,用于依据所述一个或多个第一分词的权重,计算
所述提问关键词与各候选建议词的相似度;信息返回模块,用于将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述客户端。优选地,所述相似度计算模块包括:第二分词子模块,用于对所述候选建议词的集合中的候选建议词进行分词处理,得到对应的一个或多个第二分词;第二权重计算子模块,用于计算所述一个或多个第二分词的权重;第一向量组织子模块,用于将所述一个或多个第一分词的权重,组织成所述提问关键词的向量信息;第二向量组织子模块,用于将每个候选建议词对应的一个或多个第二分词的权重,组织成对应的候选建议词的向量信息;计算子模块,用于采用所述提问关键词的向量信息与各候选建议词的向量信息,计算所述提问关键词与各候选建议词的相似度。优选地,所述第一权重计算模块包括:特征提取子模块,用于分别提取所述第一分词的多个特征信息;特征权重获取子模块,用于获取所述多个特征信息的权重;汇总子模块,用于汇总所述多个特征信息的权重,得到所述第一分词的权重。优选地,所述特征权重获取子模块还用于:加载预先生成的权重计算模型,所述权重计算模型包括多个特征信息及对应的权重的映射关系;在所述权重计算模型中查询所述特征信息的权重。优选地,所述装置还包括:信息提取模本文档来自技高网
...

【技术保护点】
一种智能问答的方法,其特征在于,所述方法包括:接收客户端发送的提问关键词,将所述提问关键词进行分词处理,得到一个或多个第一分词;基于所述一个或多个第一分词,获取与所述提问关键词匹配的候选建议词的集合,所述候选建议词为预设数据库中包含所述一个或多个第一分词的词;计算所述一个或多个第一分词的权重;依据所述一个或多个第一分词的权重,计算所述提问关键词与各候选建议词的相似度;将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述客户端。

【技术特征摘要】
1.一种智能问答的方法,其特征在于,所述方法包括:接收客户端发送的提问关键词,将所述提问关键词进行分词处理,得到一个或多个第一分词;基于所述一个或多个第一分词,获取与所述提问关键词匹配的候选建议词的集合,所述候选建议词为预设数据库中包含所述一个或多个第一分词的词;计算所述一个或多个第一分词的权重;依据所述一个或多个第一分词的权重,计算所述提问关键词与各候选建议词的相似度;将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述客户端。2.根据权利要求1所述的方法,其特征在于,所述依据所述一个或多个第一分词的权重,计算所述提问关键词与各候选建议词的相似度的步骤包括:对所述候选建议词的集合中的候选建议词进行分词处理,得到对应的一个或多个第二分词;计算所述一个或多个第二分词的权重;将所述一个或多个第一分词的权重,组织成所述提问关键词的向量信息;将每个候选建议词对应的一个或多个第二分词的权重,组织成对应的候选建议词的向量信息;采用所述提问关键词的向量信息与各候选建议词的向量信息,计算所述提问关键词与各候选建议词的相似度。3.根据权利要求1或2所述的方法,其特征在于,所述计算所述一个或多个第一分词的权重的步骤包括:分别提取所述第一分词的多个特征信息;获取所述多个特征信息的权重;汇总所述多个特征信息的权重,得到所述第一分词的权重。4.根据权利要求3所述的方法,其特征在于,所述获取所述多个特征信息的权重的步骤为:加载预先生成的权重计算模型,所述权重计算模型包括多个特征信息及对应的权重的映射关系;在所述权重计算模型中查询所述特征信息的权重。5.根据权利要求4所述的方法,其特征在于,所述权重计算模型按照如下方式生成:查询日志记录,获取在先提问关键词及对应的建议词,其中,所述建议词为预设数据库中包含所述在先提问关键词的一个或多个分词的词;依据所述在先提问关键词及对应的建议词,构建所述在先提问关键词与所述建议词的组合;基于所述在先提问关键词与所述建议词的组合,映射出分词组合,所述分词组合为对所述在先提问关键词进行分词处理及对所述建议词进行分词处理后,得到的分词的组合;针对所说分词组合中的每个分词,分别提取预置的多个特征信息,形成特征信息组合;对所述特征信息组合进行模型训练,得到权重计算模型。6.根据权利要求5所述的方法,其特征在于,所述基于所述在先提问关键词与所述建议词的组合,映射出分词组合的步骤包括:基于所述在先提问关键词与所述建议词的组合,分别对所述在先提问关键词及所述建议词进行分词处理,得到分词列表;基于所述分词列表,获得相同分词列表及不同分词列表,并定义相同分词与不同分词列表的关系为:相同分词列表>不同分词列表;结合所述相同分词列表与所述不同分词列表的关系,构建分词组合。7.根据权利要求5或6所述的方法,其特征在于,所述对所述特征信息组合进行模型训练,得到权重计算模型的步骤包括:将所述特征信息组合转换为特定样本格式的特征信息组合;通过排序向量空间模型算法RankSVM对所述特定样本格式的特征信息
\t组合进行建模,获得权重计算模型。8.根据权利要求5或6所述的方法,其特征在于,所述特征信息至少包括如下信息:词频TF、逆文档频率IDF、TF*IDF、BM25、分词长度LEN、类目信息、词性信息。9.根据权利要求4或5或6所述的方法,其特征在于,在所述对所述特征信息组合进行模型训练,得到权重计算模型的步骤之后,还包括:依据所述日志记录更新所述权重计算模型。10.根据权利要求1所述的方法,其特征在于,所述将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述客户端的步骤包括:将所述相似度排序在前的N个候选建议词及对应的答案信息返回所述客户端,其中N为正整数;或者,将所述相似度大于预设阈值的候选建议词及对应的答案信息返回所述客户端。11.一种智能问答的装置,其特征在于,所述装置包括:第一分词模块,用于接收客户端发送的提问关键词,将所述提问关键词进行分词处理,得到一个或多个第一分词;候选建议词获取模块,用于基于所述一个或多个第一分词,获取与所述提问关键词匹配的候选建议词的集合,所述候选建议词为预设数据库中包含所述一个或多个第一分词的词;第一权重计算模块,用于计算所述一个或多个第一分词的权重;相似度计算模块,用于依据所述一个或多个第一分词的权重,计算所述提问关键词与各候选建议词的相似度;信息返回模块,用于将所述相似度符合预设规则...

【专利技术属性】
技术研发人员:王义
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1