一种基于词串长度的意图识别方法、系统及存储介质技术方案

技术编号:28472710 阅读:14 留言:0更新日期:2021-05-15 21:40
本发明专利技术公开了一种基于词串长度的意图识别方法、系统、电子设备及存储介质,涉及意图识别技术领域,所述意图识别方法根据识别框架TOPVM查出问句对应所述识别框架的要素词得到第一要素字典;其中,T为时间,O为对象,P为参数,V为数值,M为方法;将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串,并和预建的问答意图知识库的目标词串进行匹配得到意图识别结果,能够快速进行意图识别,满足问答系统对实时性的要求。问答系统对实时性的要求。问答系统对实时性的要求。

【技术实现步骤摘要】
一种基于词串长度的意图识别方法、系统及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种基于词串长度的意图识别方 法、系统、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的快速发展,人机对话技术在日常生活中的应用也越来 越广泛,人机对话技术中最关键的是用户意图的识别,即识别用户输入的问句 所表达的意图,在人机会话过程中,需要准确把握对话过程中的用户意图,即 对于用户输入的一句话,通过意图识别技术确定用户期望完成的任务是什么, 可见意图识别决定了能否智能、准确地与用户进行交互。
[0003]现有技术中,由于计算量过大,计算速度不能满足现场问答对实时性的要 求。

技术实现思路

[0004]本专利技术的目的在于提供一种基于词串长度的意图识别方法、系统、电子设 备及存储介质,能够快速的进行意图识别。
[0005]第一方面,本专利技术实施例提供了一种基于词串长度的意图识别方法,包括 以下步骤:
[0006]根据识别框架TOPVM查出问句对应所述识别框架的要素词得到第一要素 字典;其中,T为时间,O为对象,P为参数,V为数值,M为方法;
[0007]将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的 TOPVM的组合优先进行替换,得到候选词串,并和预建的问答意图知识库的 目标词串进行匹配得到意图识别结果。
[0008]可选地,将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相 对较长的TOPVM的组合优先进行替换,得到候选词串包括:
[0009]根据TOPVM的顺序组合构造全部要素组合词串,并按照所述组合词串的 长度逆排序;
[0010]按照组合词串长度的顺序将所述第一要素字典合并,得到带有组合长度顺 序信息的第二要素字典;
[0011]根据所述第二要素字典递增地替换原句中相应的要素,得到候选词串。
[0012]可选地,所述意图识别方法还包括:
[0013]对所述问句中出现的和正则运算可能混淆的符号进行替换和恢复。
[0014]可选地,按照所述组合词串的长度逆排序包括:
[0015]将5个要素序列进行笛卡尔扩展,构造出([T,O,P,V,M],len)的二元组序列;
[0016]对上述序列按照len进行逆序排列。
[0017]第二方面,本专利技术实施例提供了基于词串长度的意图识别系统,所述识别 系统包括:
[0018]数据层,用于根据识别框架TOPVM查出问句对应所述识别框架的要素词;
[0019]处理层,用于将所述要素词按照TOPVM的组合顺序按照长度进行排列, 对相对较长的TOPVM的组合优先进行替换,得到候选词串,并和预建的问答 意图知识库的目标词串进行匹配;
[0020]应用层,用于意图识别结果的输出。
[0021]可选地,所述数据层包括:
[0022]问句语料库,用来记录问句相关信息,问句相关信息包括序号、问句来源 以及问句;
[0023]第一要素字典,包括字典代码和要素的实例值;
[0024]问答意图知识库,包括问句目标词串和问答意图解析。
[0025]可选地,所述处理层包括:
[0026]正则符号处理模块,用于对输入问句中出现的和正则运算可能混淆的符号 进行替换和恢复;
[0027]框架要素匹配模块,根据识别框架TOPVM查出问句对应所述识别框架的 要素词得到第一要素字典;
[0028]字典排序模块,按照组合词串长度的顺序将所述第一要素字典合并,得到 带有组合长度顺序信息的第二要素字典;
[0029]问答意图匹配模块,根据所述第二要素字典递增地替换原句中相应的要素, 得到候选词串,并和问答意图知识库的目标词串进行匹配得到意图识别结果。
[0030]可选地,所述应用层包括:
[0031]问句分析模块,用于读入问句列表,并把意图识别结果进行输出。
[0032]第三方面,本专利技术实施例提供了一种电子设备,包括:
[0033]处理器;
[0034]用于存储处理器可执行指令的存储器;
[0035]其中,所述处理器通过运行所述可执行指令以实现上述的方法。
[0036]第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计 算机指令,该指令被处理器执行时实现上述方法的步骤。
[0037]有益效果
[0038]本专利技术提出了一种基于词串长度的意图识别方法,根据识别框架TOPVM 查出问句对应所述识别框架的要素词得到第一要素字典;其中,T为时间,O 为对象,P为参数,V为数值,M为方法;将所述要素词按照TOPVM的组 合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到 候选词串,并和预建的问答意图知识库的目标词串进行匹配得到意图识别结果, 能够快速进行意图识别,满足问答系统对实时性的要求。
附图说明
[0039]图1为本专利技术实施例的一种基于词串长度的意图识别方法的流程图;
[0040]图2为图1中步骤S40所述方法的流程图;
[0041]图3为专利技术实施例的一种基于词串长度的意图识别方法的流程图;
[0042]图4为专利技术实施例的一种基于词串长度的意图识别系统的结构框图;
[0043]图5为本专利技术实施例的一种电子设备的结构框图。
具体实施方式
[0044]下面将结合实施例对本专利技术的技术方案进行清楚、完整地描述,显然,所 描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的 实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本专利技术保护的范围。
[0045]术语"第一"、"第二"仅用于描述目的,而不能理解为指示或暗示相对重要 性或者隐含指明所指示的技术特征的数量。由此,限定有"第一"、"第二"的特 征可以明示或者隐含地包括一个或者更多个所述特征。对于本领域的普通技术 人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。
[0046]在问句框架意图识别中,有两个任务,其一识意图别框架名称,其二是识 别框架要素。在基于句式框架的问答意图识别中[问句框架F一般由TOPVM(T
→ꢀ
时间,O

对象,P

参数,V

值,M

方法)等5个框架元素及其分层构成], 句子的框架目标词是一个含有英文字母的虚词实词结合在一起的混合词串,该 词串并不是问句的的一部分,例如问句“大湾404

2H井2013年4月18日同比 2013年4月17日产水量减少多少”的框架目标词串是“OTP减少多少”,“OTP 减少多少”并不是问句“大湾404

2H井2013年4月18日同比2013年4月17 日产水量减少多少”的任何一部分,因此,不能用词串匹配的方式实现句子意 图名称的识别,而必须采用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于词串长度的意图识别方法,其特征在于,所述方法包括:根据识别框架TOPVM查出问句对应所述识别框架的要素词得到第一要素字典;其中,T为时间,O为对象,P为参数,V为数值,M为方法;将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串,并和预建的问答意图知识库的目标词串进行匹配得到意图识别结果。2.根据权利要求1所述意图识别方法,其特征在于,将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串包括:根据TOPVM的顺序组合构造全部要素组合词串,并按照所述组合词串的长度逆排序;按照组合词串长度的顺序将所述第一要素字典合并,得到带有组合长度顺序信息的第二要素字典;根据所述第二要素字典递增地替换原句中相应的要素,得到候选词串。3.根据权利要求1或2所述的意图识别方法,其特征在于,所述意图识别方法还包括:对所述问句中出现的和正则运算可能混淆的符号进行替换和恢复。4.根据权利要求1或2所述的意图识别方法,其特征在于,按照所述组合词串的长度逆排序包括:将5个要素序列进行笛卡尔扩展,构造出([T,O,P,V,M],len)的二元组序列;对上述序列按照len进行逆序排列。5.一种基于词串长度的意图识别系统,其特征在于,所述识别系统包括:数据层,用于根据识别框架TOPVM查出问句对应所述识别框架的要素词;处理层,用于将所述要素词按照TOPVM的组合顺序按照长度进行排列,对...

【专利技术属性】
技术研发人员:刘伟华谭培波柳晶晶侯志强
申请(专利权)人:北京智通云联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1