一种语句识别方法及装置制造方法及图纸

技术编号:11298859 阅读:49 留言:0更新日期:2015-04-15 15:57
本申请提供了一种语句识别方法及装置,该方法包括:对获取到的待识别语句,确定非停用词为关键词,在预设语句库中,选取包含待识别语句的关键词的候选语句,利用预先构建的分类模型,确定待识别语句的主题分类标签及意图分类标签,需要说明,分类模型能够识别未知类的意图,识别出的意图分类标签为未知类且候选语句为多个时,按照预设的意图标签,将多个候选语句分组,将每个分组中的候选语句对应的预设信息进行显示。由于不同分组对应不同的意图类型,从每个分组中都选择候选语句作为目标语句,进而显示每个目标语句各自对应的预设信息,从而解决反馈的信息单一甚至无法反馈的问题。

【技术实现步骤摘要】
【专利摘要】本申请提供了一种语句识别方法及装置,该方法包括:对获取到的待识别语句,确定非停用词为关键词,在预设语句库中,选取包含待识别语句的关键词的候选语句,利用预先构建的分类模型,确定待识别语句的主题分类标签及意图分类标签,需要说明,分类模型能够识别未知类的意图,识别出的意图分类标签为未知类且候选语句为多个时,按照预设的意图标签,将多个候选语句分组,将每个分组中的候选语句对应的预设信息进行显示。由于不同分组对应不同的意图类型,从每个分组中都选择候选语句作为目标语句,进而显示每个目标语句各自对应的预设信息,从而解决反馈的信息单一甚至无法反馈的问题。【专利说明】一种语句识别方法及装置
本申请涉及语言数据处理
,尤其是一种语句识别方法及装置。
技术介绍
在自然语言处理领域中,常常需要对自然语言进行意图的识别,以自动生成反馈 信息。例如,在自动问答时,用户输入语句"为什么冰箱不通电了",需要对输入语句进行意 图识别,以反馈冰箱不通电的原因。 由于自然语言的复杂性,常常一个语句对应多个不同的子意图,例如,用户输入的 语句为"冰箱不通电了",该种情况下,用户可能是想询问冰箱不通电的原因,也可能是想询 问冰箱不通电的解决办法。 目前,对于该种存在多种不同子意图的语句,生成的反馈信息较为单一,如只反馈 原因或者只反馈解决办法,甚至无法生成反馈信息。
技术实现思路
有鉴于此,本申请提供了一种语句识别方法及装置,用以解决现有的识别方法输 出单一甚至无法输出反馈信息的技术问题。为实现所述专利技术目的,本专利技术提供的技术方案 如下: 一种语句识别方法,包括: 获取待识别语句; 确定所述待识别语句中的非停用词为关键词; 在预设语句库中,选取包含所述关键词的候选语句; 利用预先构建的分类模型,确定所述待识别语句的主题分类标签和意图分类标 签; 当所述意图分类标签为未知类且所述候选语句为多个时,将多个所述候选语句按 照各自的预设意图标签进行分类,获得多个分组; 将每个所述分组中的候选语句确定为目标语句;其中,所述目标语句的预设主题 标签与所述待识别语句的主题分类标签相同; 显示每个所述目标语句对应的预设信息。 可选地,还包括: 当所述意图分类标签非未知类时,确定所述待识别语句与每个所述候选语句的相 似度; 将超过预设相似度阈值的最大相似度对应的候选语句确定为目标语句; 显示所述目标语句对应的预设信息。 可选地,所述将每个所述分组中的候选语句确定为目标语句包括: 确定所述待识别语句与每个所述候选语句的相似度; 依据相似度的大小进行降序排序,在每个所述分组中,选取排序在前且超过预设 相似度阈值的预设个数的候选语句为目标语句。 可选地,所述利用预先构建的分类模型,确定所述待识别语句的主题分类标签和 意图分类标签包括: 按照预设特征词提取规则,在所述待识别语句中提取多个分类特征; 将所述多个分类特征输入至所述分类模型,获得多个意图概率值及多个主题概率 值; 将最大意图概率值对应的分类标签确定为所述待识别语句的意图分类标签,并将 最大主题概率值对应的分类标签确定为所述待识别语句的主题分类标签。 可选地,所述分类模型的构建过程包括: 获取包含多个已标注语句的训练集;其中,每个所述标注语句具有各自的意图标 签及主题标签; 利用预设训练方法,对所述训练集进行训练,获得分类模型;其中,所述分类模型 用于对待识别语句的意图及主题进行分类。 可选地,所述确定所述待识别语句与每个所述候选语句的相似度包括: 分别计算所述待识别语句与每个所述候选语句的语义相似度、主题意图相似度及 句法相似度;其中,所述语义相似度为待识别语句的关键词与候选语句的关键词之间的语 义相似度;所述主题意图相似度为待识别语句的主题及意图与候选语句的主题及意图的相 似度;所述句法相似度为待识别语句的句法结构与候选语句的句法结构的相似度; 将每个所述候选语句各自对应的所述语义相似度、意图相似度及所述句法相似度 进行加权求平均值,获取所述待识别语句与每个所述候选语句各自的相似度。 可选地,计算所述待识别语句与所述候选语句的语义相似度包括: 依次计算所述待识别语句的每个关键词分别与所述候选语句的每个关键词的词 语相似度,获得相似度矩阵; 统计所述相似度矩阵的各行中最大词语相似度的总值,并计算该总值的行平均 值; 统计所述相似度矩阵的各列中最大词语相似度的总值,并计算该总值的列平均 值; 计算所述行平均值及所述列平均值的平均值,获得所述待识别语句与所述候选语 句的语义相关度。 可选地,计算所述待识别语句与所述候选语句的主题意图相似度包括: 判断所述待识别语句的主题分类标签与所述候选语句的预设主题分类标签是否 相同,获得第一判断结果; 判断所述待识别语句的意图分类标签是否为未知类,获得第二判断结果; 判断所述待识别语句的意图分类标签与所述候选语句的预设意图标签是否相同, 获得第三判断结果; 当所述第一判断结果为是且所述第二判断结果为是时,确定所述主题意图相似度 为1 ; 当所述第一判断结果为是、所述第二判断结果为否且所述第三判断结果为是时, 确定所述主题意图相似度为1 ; 当所述第一判断结果为是、所述第二判断结果为否且所述第三判断结果为否时, 确定所述主题意图相似度为大于〇且小于1的预设值; 当所述第一判断结果为否时,确定所述主题意图相似度为0。 可选地,计算所述待识别语句与所述候选语句的句法相似度包括: 对所述待识别语句进行句法分析,获得所述待识别语句的第一句法成分,并获取 所述候选语句的预设的第二句法成分; 计算所述第一句法成分与所述第二句法成分的相同成分的第一词语相似度; 计算所述第一句法成分与所述第二句法成分的相同修饰成分的第二词语相似 度; 获取所述第一句法成分与所述第二句法成分的非相同成分的预设惩罚因子; 利用所述第一词语相似度、所述第二词语相似度及所述预设惩罚因子,计算加权 平均值,获得句法相似度。 可选地,当确定出的关键词为多个时,所述在预设语句库中,选取包含所述关键词 的候选语句包括: 统计所述预设语句库中每个语句包含待识别语句中关键词的个数; 依据包含的关键词的个数进行降序排序,选取排序在前的预设数量的语句为候选 语句。 可选地,所述确定所述待识别语句中的非停用词为关键词包括: 对所述待识别语句进行分词,获得多个分词词语; 去除所述多个分词词语中的停用词,获得关键词。 本申请还提供了一种语句识别装置,包括: 待识别语句获取模块,用于获取待识别语句; 关键词确定模块,用于确定所述待识别语句中的非停用词为关键词; 候选语句获取模块,用于在预设语句库中,选取包含所述关键词的候选语句; 主题和意图确定模块,用于利用预先构建的分类模型,确定所述待识别语句的主 题分类标签和意图分类标签; 候选语句分组模块,用于当所述意图分类标签为未知类且所述候选语句为多个 时,将多个所述候选语句按照各自的预设意图标签进本文档来自技高网...
一种语句识别方法及装置

【技术保护点】
一种语句识别方法,其特征在于,包括:获取待识别语句;确定所述待识别语句中的非停用词为关键词;在预设语句库中,选取包含所述关键词的候选语句;利用预先构建的分类模型,确定所述待识别语句的主题分类标签和意图分类标签;当所述意图分类标签为未知类且所述候选语句为多个时,将多个所述候选语句按照各自的预设意图标签进行分类,获得多个分组;将每个所述分组中的候选语句确定为目标语句;其中,所述目标语句的预设主题标签与所述待识别语句的主题分类标签相同;显示每个所述目标语句对应的预设信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:王金龙贾明静董日壮
申请(专利权)人:青岛理工大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1