基于上下文进行意图识别的方法和系统技术方案

技术编号:12147464 阅读:142 留言:0更新日期:2015-10-03 03:40
本发明专利技术公开了一种基于上下文进行意图识别的方法和系统。所述方法包括:基于用户历史咨询日志,对包括在所述用户历史咨询日志中的用户提出的问题进行人工标注;对每一个问题执行特征提取,以生成训练语料;根据监督学习算法,对所生成的训练语料进行模型训练,以获得训练模型;以及基于所获得的训练模型,对当前的问题进行预估并获得预估后的用户意图识别结果。

【技术实现步骤摘要】

本专利技术设及人工智能领域,特别设及基于上下文进行意图识别的方法和系统
技术介绍
意图识别是识别一种行为的意图。例如,在问答对话中,提问者每句话都带有一定 的意图,应答方根据对方的意图进行回答。 相关问题在捜索引擎、聊天机器人等场景下有广泛的应用。尤其在聊天机器人中, 意图识别是整个系统的核屯、模块。在回答用户的问题时,就是通过分析用户意图,在了解用 户想问什么之后给出相应的答案。 现有技术中进行意图识别的方法主要是获取一批数据,然后对每条数据的意图进 行人工标注,从而得到训练数据。通过训练数据结合特定的算法训练出模型,并使用所得到 的模型对新的语料进行意图识别。然而,当前意图识别大多是基于单句对话的,但是人的 对话都是在一定的上下文中进行的,同一句话在不同的上下文中可能表述的意思完全不一 样。如果仅仅使用单句进行意图识别完全违背了自然语言的形式,很多意图是无法区分出 来的。 例如,在京东客服日常咨询的问题中有售后运费(退货产生的费用)和售前运费 (商家寄给客户商品产生的费用)两种。如果用户询问"运费谁出",仅仅根据该句话无法 区分用户是咨询售前运费还是售后运费。当将该句话放到上下文场景中时就很容易区分: 如果用户先咨询"我要退货",再问"运费谁出",很明显是售后运费;如果先咨询"现在下单 什么时候到",再问"运费谁出",则是售前运费。 由此,可W看到仅仅根据单句的信息进行意图识别存在一些缺陷。一方面,在对训 练语料进行人工标注时无法区分很多问题中用户的真实意图,导致不同人标注的结果不一 样,从而影响训练数据质量。另一方面,训练出来的模型对同样的话预测的意图永远是一致 的,不会根据不同的上下文变化,从而导致预测错误。 因此,需要一种能够基于上下文进行意图识别的方法和系统。
技术实现思路
[000引根据本专利技术的一个实施例,提供了一种基于上下文进行意图识别的方法,包括:基 于用户历史咨询日志,对包括在所述用户历史咨询日志中的用户提出的问题进行人工标 注;对每一个问题执行特征提取,W生成训练语料;根据监督学习算法,对所生成的训练语 料进行模型训练,W获得训练模型;W及基于所获得的训练模型,对当前的问题进行预估并 获得预估后的用户意图识别结果。 优选地,对包括在所述用户历史咨询日志中的用户提出的问题进行人工标注进一 步包括;按照会话对所获取的用户历史咨询日志进行划分,并逐句对所述用户历史咨询日 志进行人工标注。 优选地,对所生成的训练语料进行模型训练进一步包括:对每一个问题添加上文 意图分类信息;提取每一个问题的位置信息;w及将每一个问题转化为特征向量作为所述 训练语料。 优选地,对所生成的训练语料进行模型训练进一步包括:对特征提取后的所有数 据进行分词,并根据增益来获取增益最大的预定数目个分词作为特征词典;基于所述特征 词典,将每个训练数据转化为训练向量;W及将所述训练向量作为所述监督学习算法的输 入,执行所述监督学习算法W获得训练模型。 优选地,对当前的问题进行预估进一步包括;获取当前问题和用户信息;根据用 户ID获取用户的历史信息,得到本句问题在会话中的位置信息W及上文意图分类信息;对 所述当前问题执行特征提取W获得特征向量;W及基于训练模型,输入所述特征向量W获 得对当前的问题的预估结果。根据本专利技术的另一个实施例,提供了一种基于上下文进行意图识别的系统,包括: 人工标注模块,所述人工标注模块被配置成基于用户历史咨询日志,对包括在所述用户历 史咨询日志中的用户提出的问题进行人工标注;特征提取模块,所述特征提取模块被配置 成对每一个问题执行特征提取,W生成训练语料;模型训练模块,所述模型训练模块被配置 成根据监督学习算法,对所生成的训练语料进行模型训练,W获得训练模型;W及线上预估 模块,所述线上预估模块被配置成基于所获得的训练模型,对当前的问题进行预估并获得 预估后的用户意图识别结果。优选地,所述人工标注模块进一步被配置成按照会话对所获取的用户历史咨询日 志进行划分,并逐句对所述用户历史咨询日志进行人工标注。优选地,所述特征提取模块进一步被配置成;对每一个问题添加上文意图分类信 息;提取每一个问题的位置信息;W及将每一个问题转化为特征向量作为所述训练语料。优选地,所述模型训练模块进一步被配置成:对特征提取后的所有数据进行分词, 并根据增益来获取增益最大的预定数目个分词作为特征词典;基于所述特征词典,将每个 训练数据转化为训练向量;W及将所述训练向量作为所述监督学习算法的输入,执行所述 监督学习算法W获得训练模型。优选地,所述线上预估模块进一步被配置成;获取当前问题和用户信息;根据用 户ID获取用户的历史信息,得到本句问题在会话中的位置信息W及上文意图分类信息;对 所述当前问题执行特征提取W获得特征向量;W及基于训练模型,输入所述特征向量W获 得对当前的问题的预估结果。[001引根据本公开和附图的下面的详细描述,对本领域的普通技术人员来说其它的目 的、特征、W及优点将是显而易见的。【附图说明】附图图示了本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。在附图 中: 图1图示了根据本专利技术实施例的基于上下文进行意图识别的系统的示意图。 图2图示了根据本专利技术实施例的人工标注模块的处理流程图。 图3图示了根据本专利技术实施例的特征提取模块的处理流程图。图4图示了根据本专利技术实施例的模型训练模块的处理流程图。 图5图示了根据本专利技术实施例的线上预估模块的处理流程图。【具体实施方式】 根据本专利技术的实施例公开了一种基于上下文进行意图识别的方法和系统。在W下 描述中,为了说明的目的,阐述了多个具体细节W提供对本专利技术的实施例的全面理解。然 而,对于本领域技术人员显而易见的是,本专利技术的实施例可W在没有该些具体细节的情况 下实现。 如在此所使用的术语"机器学习"是一口人工智能的科学,该领域的主要研究对象 是人工智能,特别是如何在经验学习中改善具体算法的性能。常见的机器学习方法可W分 为监督学习、半监督学习和无监督学习。 如在此所使用的术语"监督学习"指的是从给定的训练数据集中学习出一个函数, 当新的数据到来时,可W根据该个函数预测结果。监督学习的训练集要求是包括输入和输 出,也可W说是特征和目标。训练集中的目标是人工标注的。,其中"1"表示词典中的词出现过,"0"表示没有出现。 图1图示了根据本专利技术实施例的基于上下文进行意图识别的系统100的示意图。 如图1所示,基于上下文进行意图识别的系统100包括人工标注模块101、特征提取模块 103、模型训练模块105和线上预估模块107。根据本专利技术的实施例,人工标注模块101、特 征提取模块103和模型训练模块105属于线下模块,用来生成特征词典、模型。线上预估模 块107属于线上模块,通过所生成的特征词典、模型对实时问题进行分类评估。下面W京东 客服回答用户咨询问题为场景对每个模块进行说明。 人工梳注橫块 京东客服回答的问题可W分为不同的业务点,用户的每个问题可W对应到该些业 务点。该里直接将该些业务点看作用户意图,常见的业务点例如有;退货、换货、配送、运费 等。[003引图2图示了根据本专利技术实施例的人工标注模块101的处理流程图。如图2所示,人 工标注模块10本文档来自技高网
...
基于上下文进行意图识别的方法和系统

【技术保护点】
一种基于上下文进行意图识别的方法,包括:基于用户历史咨询日志,对包括在所述用户历史咨询日志中的用户提出的问题进行人工标注;对每一个问题执行特征提取,以生成训练语料;根据监督学习算法,对所生成的训练语料进行模型训练,以获得训练模型;以及基于所获得的训练模型,对当前的问题进行预估并获得预估后的用户意图识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘佳俞晓光
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1