一种用于智能识别文本语义的方法技术

技术编号:22055249 阅读:26 留言:0更新日期:2019-09-07 15:15
本发明专利技术涉及自然语言处理技术领域,具体涉及用于智能识别文本语义的方法,包括步骤:对用户输入文本进行标准化处理;对输入文本进行正则的匹配识别,对满足相似度及命中规则的输入文本,直接做出响应,并替换为模型匹配更易识别的文本;构建任务场景流程,在任务型的多轮对话场景中,基于已经构建的任务场景流程,结合历史输入数据和当前输入数据进行场景流程的意图识别;模型匹配,根据句子间的语义注意力权重,实现局部推断,进一步实现全局推断,精准识别客户意图,从知识中挖掘问题答案。该方法区分文本的语义意图从而分发给相应业务引擎或处理模块,结合上下文语境及场景自动识别语义,并通过规则处理,提升识别的准确率及效率。

A Method for Intelligent Recognition of Text Semantics

【技术实现步骤摘要】
一种用于智能识别文本语义的方法
本专利技术涉及自然语言处理
,具体涉及一种用于智能识别文本语义的方法。
技术介绍
客服机器人是一个比较复杂的对话系统,可以由多个处理不同任务的模块组成。其中,最为核心的就是语义中控,即理解用户想要表达什么意思,确定由机器人的哪个模块进行输出。现有的客服机器人大多缺少行之有效的语义中控,能力比较单一,往往只能对用户的问答型或闲聊型对话做出响应,而对于任务型的对话则需要人工服务来满足用户需求;或者在不同模块间的协调上表现不佳,难以捕捉用户真正的意图,进而无法满足用户的实际需求。智能语义中控以客服机器人的实际应用场景出发,基于对过往用户交互数据分析,归纳提炼出的应用模块,从而根据用户当前问句和该通会话中的历史交互数据,智能决策当前问题该由机器人的哪个模块进行回答,可改善客服机器人能力单一、无法满足用户切实需求的现状。
技术实现思路
为了解决现有技术所存在的问题,本专利技术提供一种用于智能识别文本语义的方法,该方法区分文本的语义意图从而分发给相应业务引擎或相应处理模块,在文本分析过程中结合上下文语境及场景自动识别语义,并通过一些规则的处理,从而提升识别的准确率及识别效率。本专利技术采用如下技术方案来实现:一种用于智能识别文本语义的方法,包括以下步骤:S1、对用户输入文本进行标准化处理;S2、对输入文本进行正则的匹配识别,对满足相似度及命中规则的输入文本,直接做出响应,并替换为模型匹配更易识别的文本;S3、构建任务场景流程,在任务型的多轮对话场景中,基于已经构建的任务场景流程,结合历史输入数据和当前输入数据进行场景流程的意图识别;S4、模型匹配,根据句子间的语义注意力权重,实现局部推断,进一步实现全局推断,精准识别客户意图,并从知识中挖掘问题答案。在优选的实施例中,步骤S2通过强规则匹配对输入文本进行正则的匹配识别;将常见的话语及容易引起歧义的话语进行集合,然后加入强规则的知识库中;在强规则的知识库中,把多种不同的表述映射为统一的语义,然后再从强规则的知识库中找到相应的知识进行响应;根据语义情况,使用强正则或者弱正则方式进行匹配处理。强规则的知识库整体上呈现一个树状结构,每个知识节点有相应的节点id、响应文本以及要匹中的正则表达式规定。在优选的实施例中,步骤S3中场景流程为任务型的多轮对话;在任务型的多轮对话中,基于已经构建的任务场景流程,结合用户的历史输入数据和当前输入数据进行场景意图识别,推断场景流程中符合用户预期的下一个流程,以此不断递进,完成对用户输入数据的决策,得到下一步应当采取的最佳动作。基于本专利技术智能识别文本语义的方法,从规则匹配到模型匹配,使识别过程可配置,可持续优化,系统结构可灵活变化,性能更突出;解决了以往单匹配方式的识别过程不能灵活调整,识别准确率及性能受限的问题。本专利技术与现有技术相比,主要有如下优点及有益效果:一、提高了对用户问题的识别能力。随着网络信息时代的发展,在与人机的交互过程中,用户的提问往往复杂多变,对同一个问题的描述也可能存在多样性的表达。这样一来,传统的QA由于以用户问的字面意思为导向,缺乏对用户问的深层语义进行挖掘,导致所提供的答案往往达不到用户的预期,甚至答非所问,难以猜出用户所想,答用户所问。在智能语义中控的标准化支撑下,可以排除用户问题中无关信息的干扰,精准识别用户意图,为用户提供符合期望的答案,真正回答用户提问。二、对用户话语进行正则表达式的识别。相较于FAQ引擎等神经网络模型,其特点之一便是识别速度更快。对于部分网络模型不能识别或是有歧义的话语,则可以在这层进行一个正则规则的识别,这点体现出了准确性。对于某些FAQ引擎尚未训练到的语义,可在这层先通过手工配置正则规则,来取得识别效果,这点体现了它的快捷、方便。而另一方面,可以对某些同一语义但不同表述的话语先进性一个标准的语义转换,然后再传给FAQ引擎识别,提高FAQ引擎识别的准确率。三、赋予了QA解决用户任务型对话的能力。在现有的对话机器人中,由于对话能力的限制,大多只能对用户的问答型、闲聊型对话做出响应,而对于那些现实业务中常常出现,较为复杂却也更为用户所需要的任务型对话,则无法很好做出应答;从而制约了对话机器人满足用户实际需求的能力,降低了用户使用对话机器人的欲望。而在智能语义中控的任务场景支撑下,任务型的多轮对话能够被高度抽象出其中基本元素,使其成为所有对话构建的基石;在此基础上可以自由搭建对话场景,配置意图及实体,例如可以建立由经验丰富业务员所梳理得出的业务场景,结合实际业务需求为用户提供任务型对话服务。通过这种方式,在符合实际业务场景的基础上,为对话机器人提供解决用户任务型对话的能力,提高了对话机器人的对话能力。四、按传统的方式,如果直接将用户提问文本作为该模型的输入,那么准确率可能会较低。在文本输入前,本专利技术对其进行去标点符号等清洗工作,并将部分语义进行转换,提高模型的准确率。并且,对得到的结果,根据返回的知识类型不一样,会进一步的控制调整,如精准的返回一个答案,或是返回三个较相似的答案,或者无回复时的兜底处理。此外,该中控按渠道分配控制多个FAQ问答引擎。附图说明图1是本专利技术智能语义识别方法的实现流程图。图2是本专利技术智能语义识别方法的场景流程图。图3是ELSTM算法流程图。图4为bi-lstm模型结构图。具体实施方式下面将结合流程图,对本专利技术作进一步描述,显然,所描述的实施例只是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本专利技术保护的范围。实现本专利技术智能识别文本语义的方法,如图1、2,包括如下步骤:S1、对用户输入文本进行标准化处理。通过对歧义词、同义词、指代词、特殊字符配置,以及字符全半角、大小写选择性配置,对文本按配置进行处理,对停用词进行过滤,剔除掉用户输入文本中无显著意义的词语。标准化处理具体包括两个部分:文本预处理和实体识别。文本预处理主要分为文本清洗和文本去噪。其中,文本清洗有以下几个步骤:全半角转换、大小写转换、消歧处理及指代信息替换,对用户输入文本进行清洗后,能够统一标准化流程,有利于后续的文本去噪和实体识别工作的开展。文本去噪主要是对停用词进行过滤,剔除掉用户输入文本中无显著意义的词语,如语气助词、副词等虚词及高频词语,以消除这些无意义词对后续识别所带来的干扰。实体作为文本的基本单位,包含着大量的语义信息,实体识别能够准确的提取到实体信息,并以此方便快捷的获得用户输入文本的信息,并为用到该信息的后续步骤提供方便,如场景流程。对用户输入文本的标准化,能够有效规整文本,在保留语义信息的基础上形成一个统一的范式,为后续智能语义中控流程的处理带来便利;同时,通过建立词库,对新发现的特殊字符、歧义词等进行实时同步,以持续优化文本标准化的效果。S2、通过强规则匹配(rulematch)对输入文本进行正则的匹配识别。通过强规则文本配置、相似度配置,对满足相似度及命中规则的输入文本,直接做出响应,并替换为模型匹配更易识别的文本。由于只用正则表达式对话语进行识别,故响应速度会比较快。可以对常见的话语,以及容易引起歧义的话语等进行集合,然后加入强规则的知识库中。该知识库整体上呈本文档来自技高网...

【技术保护点】
1.一种用于智能识别文本语义的方法,其特征在于,包括以下步骤:S1、对用户输入文本进行标准化处理;S2、对输入文本进行正则的匹配识别,对满足相似度及命中规则的输入文本,直接做出响应,并替换为模型匹配更易识别的文本;S3、构建任务场景流程,在任务型的多轮对话场景中,基于已经构建的任务场景流程,结合历史输入数据和当前输入数据进行场景流程的意图识别;S4、模型匹配,根据句子间的语义注意力权重,实现局部推断,进一步实现全局推断,精准识别客户意图,并从知识中挖掘问题答案。

【技术特征摘要】
1.一种用于智能识别文本语义的方法,其特征在于,包括以下步骤:S1、对用户输入文本进行标准化处理;S2、对输入文本进行正则的匹配识别,对满足相似度及命中规则的输入文本,直接做出响应,并替换为模型匹配更易识别的文本;S3、构建任务场景流程,在任务型的多轮对话场景中,基于已经构建的任务场景流程,结合历史输入数据和当前输入数据进行场景流程的意图识别;S4、模型匹配,根据句子间的语义注意力权重,实现局部推断,进一步实现全局推断,精准识别客户意图,并从知识中挖掘问题答案。2.根据权利要求1所述的用于智能识别文本语义的方法,其特征在于,步骤S2通过强规则匹配对输入文本进行正则的匹配识别。3.根据权利要求2所述的用于智能识别文本语义的方法,其特征在于,步骤S2将常见的话语及容易引起歧义的话语进行集合,然后加入强规则的知识库中;在强规则的知识库中,把多种不同的表述映射为统一的语义,然后再从强规则的知识库中找到相应的知识进行响应;根据语义情况,使用强正则或者弱正则方式进行匹配处理。4.根据权利要求3所述的用于智能识别文本语义的方法,其特征在于,所述强规则的知识库整体上呈现一个树状结构,每个知识节点有相应的节点id、响应文本以及要匹中的正则表达式规定。5.根据权利要求1所述的用于智能识别文本语义的方法,其特征在于,步骤S3中场景流程为任务型的多轮对话;在任务型的多轮对话中,基于已经构建的任务场景流程,结合用户的历史输入数据和当前输入数据进行场景意图识别,推断场景流程中符合用户预期的下一个流程,以此不断递进,完成对用户输入数据的决策,得到下一步应当采取的最佳动作。6.根据权利要求5所述的用...

【专利技术属性】
技术研发人员:杨钊姜磊赖招展祝洋潘镜宇朱振航何慧沈广盈屈吕杰
申请(专利权)人:佰聆数据股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1