一种问答方法及设备技术

技术编号:19057376 阅读:21 留言:0更新日期:2018-09-29 12:16
本申请实施例公开了一种问答方法及设备,涉及语义理解技术领域,解决了由于用户的输入方式多样化导致服务器不能对用户的问句进行精确语义匹配的问题。具体方案为:接收用户输入的问句,并获取该问句的关键词;根据关键词,从预存的问答对中获取候选问答对集合,该候选问答对集合中包括至少一个候选问题和每个候选问题对应的答案;计算问句与候选问题的主题相似度,并将至少一个候选问题中,主题相似度最大的候选问题确定为目标问题;向客户端返回目标问题对应的答案。本申请实施例用于问答系统中,能够提高语义匹配的准确性。

【技术实现步骤摘要】
一种问答方法及设备
本申请实施例涉及语义理解
,尤其涉及一种问答方法及设备。
技术介绍
随着自然语言处理和人工智能相关技术的发展,已经衍生出不同种类的问答系统,问答系统一般包括问题分析(语义解析)、文档片段检索和答案抽取。其中,问题解析即分析用户的意图,仍是本领域的关键性难题。在现有技术中,问答系统可以包括客户端和服务器,且问答过程为:当用户在客户端输入问句(Query)之后,客户端可以将该问句携带在查询请求中发送至服务器,服务器便可以通过语义匹配,从存储有问答对的常用问答库中获取用户想要了解的问题,然后将所有问题中的一个问题对应的答案发送至客户端,以便客户端进行显示,供用户查看。具体的,服务器可以通过意图分析方法来进行语义匹配,例如,假设问句为:“今天天气怎么样”,则服务器可以采集意图分析方法中的模板,将问句转化为[日期]、[实体:天气]、[询问词:怎么样],并根据这些词获取用户想要了解的问题。现有技术中至少存在以下技术问题:由于意图分析方法仅对规则性强的问句有辨识度,在用户的输入方式多样化的情况下,可能会导致服务器不能对用户的问句进行精确语义匹配,从而获得不符合用户意图的答案。
技术实现思路
本申请提供一种问答方法及设备,解决了由于用户的输入方式多样化导致服务器不能对用户的问句进行精确语义匹配的问题。为达到上述目的,本申请采用如下技术方案:第一方面,本申请提供一种问答方法,该方法可以包括:接收用户输入的问句,并获取所述问句的关键词;根据所述关键词,从预存的问答对中获取候选问答对集合,所述候选问答对集合中包括至少一个候选问题和每个所述候选问题对应的答案;计算所述问句与所述候选问题的主题相似度,并将所述至少一个候选问题中,所述主题相似度最大的候选问题确定为目标问题;向客户端返回所述目标问题对应的答案。结合第一方面,在一种可能的实现方式中,所述将所述至少一个候选问题中,所述主题相似度最大的候选问题确定为目标问题,包括:将所述至少一个候选问题中,所述主题相似度大于第一预设值的候选问题确定为第一问题,得到第一问答对集合;根据所述问句的主题的词向量和焦点的词向量,以及所述第一问题的主题的词向量和焦点的词向量,计算所述问句与所述第一问题的词向量相似度;将所述第一问题中,所述词向量相似度最大的第一问题确定为所述目标问题。结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,所述将所述第一问题中,所述词向量相似度最大的第一问题确定为所述目标问题,包括:将所述第一问题中,所述词向量相似度大于第二预设值的第一问题确定为第二问题,得到第二问答对集合;根据编辑距离算法,计算所述问句与所述第二问题的距离相似度,并将所述第二问题中,所述距离相似度最大的第二问题确定为所述目标问题。结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,所述计算所述问句与所述候选问题的主题相似度,包括:根据文档主题生成模型(LatentDirichletAllocation,LDA)生成的主题词,确定所述问句包含主题词的概率,以及所述候选问题包含主题词的概率;根据所述问句包含主题词的概率和所述候选问题包含主题词的概率,计算所述问句与所述候选问题的主题相似度。结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,在所述根据所述问句的主题的词向量和焦点的词向量,以及所述第一问题的主题的词向量和焦点的词向量,计算所述问句与所述第一问题的词向量相似度之前,还包括:对所述第一问题进行分词、去除停用词处理;根据主题(Topic)与焦点(Focus)模型包括的预设规则,对所述问句和所述第一问题的分词结果进行排序;根据排序后的所述问句和所述第一问题的分词结果,生成问题树;采用至少一种切割方式切割所述问题树,并计算每种切割方式对应的描述长度(DescriptionLength),根据最小描述长度(MinimumDescriptionLength)对应的切割方式,获取所述问句的主题和焦点,以及所述第一问题的主题和焦点;根据词向量语言(Word2vec)算法,获取所述问句的主题的词向量和焦点的词向量,以及所述第一问题的主题的词向量和焦点的词向量。结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,所述根据所述问句的主题的词向量和焦点的词向量,以及所述第一问题的主题的词向量和焦点的词向量,计算所述问句与所述第一问题的词向量相似度,包括:计算所述问句的主题的词向量与所述第一问题的主题的词向量的第一相似度,并计算所述问句的焦点的词向量与所述第一问题的焦点的词向量的第二相似度;根据所述第一相似度和所述第二相似度,得到所述问句与所述第一问题的词向量相似度。结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,在所述获取所述问句的关键词之后,还包括:根据预存的同义词库,确定所述关键词的同义词;所述根据所述关键词,从预存的问答对中获取候选问答对集合,包括:根据所述关键词和所述同义词,从所述问答对中获取所述候选问答对集合。第二方面,本申请提供一种服务器,该服务器可以包括:接收单元、获取单元、计算单元、确定单元和发送单元;所述接收单元,用于接收用户输入的问句;所述获取单元,用于获取所述接收单元接收的所述问句的关键词;根据所述关键词,从预存的问答对中获取候选问答对集合,所述候选问答对集合中包括至少一个候选问题和每个所述候选问题对应的答案;所述计算单元,用于计算所述问句与所述获取单元获取的所述候选问题的主题相似度;所述确定单元,用于将所述至少一个候选问题中,所述主题相似度最大的候选问题确定为目标问题;所述发送单元,用于向所述客户端返回所述目标问题对应的答案。结合第二方面,在一种可能的实现方式中,所述确定单元,具体用于:将所述至少一个候选问题中,所述主题相似度大于第一预设值的候选问题确定为第一问题,得到第一问答对集合;根据所述问句的主题的词向量和焦点的词向量,以及所述第一问题的主题的词向量和焦点的词向量,计算所述问句与所述第一问题的词向量相似度;将所述第一问题中,所述词向量相似度最大的第一问题确定为所述目标问题。结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,所述确定单元,具体用于:将所述第一问题中,所述词向量相似度大于第二预设值的第一问题确定为第二问题,得到第二问答对集合;根据编辑距离算法,计算所述问句与所述第二问题的距离相似度,并将所述第二问题中,所述距离相似度最大的第二问题确定为所述目标问题。结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,计算单元具体用于:根据LDA生成的主题词,确定问句包含主题词的概率,以及候选问题包含主题词的概率;根据问句包含主题词的概率和候选问题包含主题词的概率,计算问句与候选问题的主题相似度。结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,服务器还可以包括:处理单元、排序单元和生成单元。处理单元,用于对第一问题进行分词、去除停用词处理。排序单元,用于根据主题与焦点模型包括的预设规则,对问句和第一问题的分词结果进行排序。生成单元,用于根据排序后的问句和第一问题的分词结果,生成问题树。处理单元,还用于采用至少一种切割方式切割问题树。计算单元,还用于计算每种切割方式对应的描述长度。获取本文档来自技高网...

【技术保护点】
1.一种问答方法,其特征在于,所述方法包括:接收用户输入的问句,并获取所述问句的关键词;根据所述关键词,从预存的问答对中获取候选问答对集合,所述候选问答对集合中包括至少一个候选问题和每个所述候选问题对应的答案;计算所述问句与所述候选问题的主题相似度,并将所述至少一个候选问题中,所述主题相似度最大的候选问题确定为目标问题;向客户端返回所述目标问题对应的答案。

【技术特征摘要】
1.一种问答方法,其特征在于,所述方法包括:接收用户输入的问句,并获取所述问句的关键词;根据所述关键词,从预存的问答对中获取候选问答对集合,所述候选问答对集合中包括至少一个候选问题和每个所述候选问题对应的答案;计算所述问句与所述候选问题的主题相似度,并将所述至少一个候选问题中,所述主题相似度最大的候选问题确定为目标问题;向客户端返回所述目标问题对应的答案。2.根据权利要求1所述的方法,其特征在于,所述将所述至少一个候选问题中,所述主题相似度最大的候选问题确定为目标问题,包括:将所述至少一个候选问题中,所述主题相似度大于第一预设值的候选问题确定为第一问题,得到第一问答对集合;根据所述问句的主题的词向量和焦点的词向量,以及所述第一问题的主题的词向量和焦点的词向量,计算所述问句与所述第一问题的词向量相似度;将所述第一问题中,所述词向量相似度最大的第一问题确定为所述目标问题。3.根据权利要求2所述的方法,其特征在于,所述将所述第一问题中,所述词向量相似度最大的第一问题确定为所述目标问题,包括:将所述第一问题中,所述词向量相似度大于第二预设值的第一问题确定为第二问题,得到第二问答对集合;根据编辑距离算法,计算所述问句与所述第二问题的距离相似度,并将所述第二问题中,所述距离相似度最大的第二问题确定为所述目标问题。4.根据权利要求1所述的方法,其特征在于,所述计算所述问句与所述候选问题的主题相似度,包括:根据文档主题生成模型LDA生成的主题词,确定所述问句包含主题词的概率,以及所述候选问题包含主题词的概率;根据所述问句包含主题词的概率和所述候选问题包含主题词的概率,计算所述问句与所述候选问题的主题相似度。5.根据权利要求2所述的方法,其特征在于,在所述根据所述问句的主题的词向量和焦点的词向量,以及所述第一问题的主题的词向量和焦点的词向量,计算所述问句与所述第一问题的词向量相似度之前,还包括:对所述第一问题进行分词、去除停用词处理;根据主题与焦点模型包括的预设规则,对所述问句和所述第一问题的分词结果进行排序;根据排序后的所述问句和所述第一问题的分词结果,生成问题树;采用至少一种切割方式切割所述问题树,并计算每种切割方式对应的描述长度,根据最小描述长度对应的切割方式,获取所述问句的主题和焦点,以及所述第一问题的主题和焦点;根据词向量语...

【专利技术属性】
技术研发人员:修媛媛杨善松沈承恩
申请(专利权)人:海信集团有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1