文本意图分类方法、装置、设备及存储介质制造方法及图纸

技术编号:34432105 阅读:26 留言:0更新日期:2022-08-06 16:10
本公开提供一种文本意图分类方法、装置、设备及存储介质。该方法包括:获取基础语料数据,基础语料数据中包含多个标注实例;对每个标注实例中的句子执行语法规则抽取操作,得到每个句子对应的第一语法规则;基于句子以及第一语法规则进行语法规则的扩展,得到第二语法规则,并将第一语法规则和第二语法规则组成语法规则集合;将每个语法规则分别转化为相应的有限状态自动机,并将获取到的待分类文本中的关键词进行替换,分别利用每个有限状态自动机对待分类文本执行匹配操作;将规则匹配得分最高的有限状态自动机对应语法规则的意图类别作为待分类文本的意图分类结果。本公开提升了文本意图分类的准确性,提升分类效率及分类性能。能。能。

【技术实现步骤摘要】
文本意图分类方法、装置、设备及存储介质


[0001]本公开涉及文本分类
,尤其涉及一种文本意图分类方法、装置、设备及存储介质。

技术介绍

[0002]随着智能化设备以及语音识别技术的发展,语音识别在语音对话中得到了广泛应用,通过语音识别技术可以对说话者的意图进行分析。例如在人机语音交互过程中,通过获取说话者的语音文本,利用文本意图分类算法来识别语音文本对应的意图,比如用户咨询的是哪一类问题。
[0003]现有技术中,目前的文本意图分类算法主要是基于数据驱动的机器学习的方法,特别是基于深度学习模型的文本意图分类方法,这种基于模型的文本意图分类方法,模型需要大量的标注数据的支持,导致人工成本高;并且由于模型通常是一个黑盒子,模型解释性不足,因此在一些实际高要求的环境里难以发挥作用。另外,基于传统规则系统的文本意图分类方法,又过分依赖专家知识,没法利用大量的数据,导致分类性能比较差,降低了文本意图分类的准确性。

技术实现思路

[0004]有鉴于此,本公开实施例提供了一种文本意图分类方法、装置、设备及存储介质,以解决现有技术存在的文本意图分类的成本高,分类性能比较差,分类结果的准确性比较低的问题。
[0005]本公开实施例的第一方面,提供了一种文本意图分类方法,包括:获取基础语料数据,基础语料数据中包含多个标注实例,每个标注实例中包含一个句子,以及句子对应的意图分类标签;对每个标注实例中的句子执行语法规则抽取操作,以便将句子中的关键词进行替换,分别得到每个句子对应的第一语法规则;基于句子以及第一语法规则进行语法规则的扩展,得到扩展后的第二语法规则,将第一语法规则以及第二语法规则组成语法规则集合,语法规则集合中的每个语法规则具有与句子相对应的意图分类标签;将语法规则集合中的每个语法规则分别转化为相应的有限状态自动机,并将获取到的待分类文本中的关键词进行替换,分别利用每个有限状态自动机对待分类文本执行匹配操作;根据匹配结果确定与待分类文本之间的规则匹配得分最高的有限状态自动机,并将有限状态自动机对应语法规则的意图类别作为待分类文本的意图分类结果。
[0006]本公开实施例的第二方面,提供了一种文本意图分类装置,包括:获取模块,被配置为获取基础语料数据,基础语料数据中包含多个标注实例,每个标注实例中包含一个句子,以及句子对应的意图分类标签;抽取模块,被配置为对每个标注实例中的句子执行语法规则抽取操作,以便将句子中的关键词进行替换,分别得到每个句子对应的第一语法规则;扩展模块,被配置为基于句子以及第一语法规则进行语法规则的扩展,得到扩展后的第二语法规则,将第一语法规则以及第二语法规则组成语法规则集合,语法规则集合中的每个
语法规则具有与句子相对应的意图分类标签;匹配模块,被配置为将语法规则集合中的每个语法规则分别转化为相应的有限状态自动机,并将获取到的待分类文本中的关键词进行替换,分别利用每个有限状态自动机对待分类文本执行匹配操作;分类模块,被配置为根据匹配结果确定与待分类文本之间的规则匹配得分最高的有限状态自动机,并将有限状态自动机对应语法规则的意图类别作为待分类文本的意图分类结果。
[0007]本公开实施例的第三方面,提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述方法的步骤。
[0008]本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
[0009]本公开实施例采用的上述至少一个技术方案能够达到以下有益效果:通过获取基础语料数据,基础语料数据中包含多个标注实例,每个标注实例中包含一个句子,以及句子对应的意图分类标签;对每个标注实例中的句子执行语法规则抽取操作,以便将句子中的关键词进行替换,分别得到每个句子对应的第一语法规则;基于句子以及第一语法规则进行语法规则的扩展,得到扩展后的第二语法规则,将第一语法规则以及第二语法规则组成语法规则集合,语法规则集合中的每个语法规则具有与句子相对应的意图分类标签;将语法规则集合中的每个语法规则分别转化为相应的有限状态自动机,并将获取到的待分类文本中的关键词进行替换,分别利用每个有限状态自动机对待分类文本执行匹配操作;根据匹配结果确定与待分类文本之间的规则匹配得分最高的有限状态自动机,并将有限状态自动机对应语法规则的意图类别作为待分类文本的意图分类结果。本公开提升了文本意图分类算法的分类性能,提升文本意图分类结果的准确性以及分类效率,降低文本意图分类的成本。
附图说明
[0010]为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0011]图1是本公开实施例提供的文本意图分类方法的流程示意图;图2是本公开实施例提供的文本意图分类装置的结构示意图;图3是本公开实施例提供的电子设备的结构示意图。
具体实施方式
[0012]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
[0013]如前述
技术介绍
的内容,当前文本意图分类算法主要基于数据驱动的机器学习的方法,特别是基于深度学习模型的方法,这种基于模型的文本意图分类方法,虽然获得了较好的效果,但是由于模型本身需要大量的标注数据的支持,导致人工成本高;并且由于深度
网络模型是一个黑盒子,模型解释性不足,因此在一些实际高要求的环境里难以发挥作用。
[0014]另一方面,基于传统规则系统(比如正则表达式)的文本意图分类方法,虽然本身有着较为成熟的体系,能有效的融入专家知识,可以克服基于数据学习的一些缺点,具有分析可控、可解释和精确率高的优点;但是这种基于传统规则系统的文本意图分类方法,本身过分依赖专家知识,没法利用大量的数据。
[0015]鉴于上述现有技术中存在的问题,如何结合这两种文本意图分类方法的优点,在有限的数据语料和部分的规则标注的基础上,获取比较好的分类性能,是当前文本意图分类领域所关注的重要问题之一。对此,本公开提供一种基于有限状态自动机的文本意图分类方法,既可以融合深度学习的词表示模型,又可以充分利用专家知识,提升分类的能力。
[0016]图1是本公开实施例提供的文本意图分类方法的流程示意图。图1的文本意图分类方法可以由服务器执行。如图1所示,该文本意图分类方法具体可以包括:S101,获取基础语料数据,基础语料数据中包含多个标注实例,每个标注实例中包含一个句子,以及句子对应的意图分类标签;S102,对每个标注实例中的句子执行语法规则抽取操本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本意图分类方法,其特征在于,包括:获取基础语料数据,所述基础语料数据中包含多个标注实例,每个所述标注实例中包含一个句子,以及所述句子对应的意图分类标签;对每个所述标注实例中的句子执行语法规则抽取操作,以便将所述句子中的关键词进行替换,分别得到每个所述句子对应的第一语法规则;基于所述句子以及所述第一语法规则进行语法规则的扩展,得到扩展后的第二语法规则,将所述第一语法规则以及所述第二语法规则组成语法规则集合,所述语法规则集合中的每个语法规则具有与所述句子相对应的意图分类标签;将所述语法规则集合中的每个语法规则分别转化为相应的有限状态自动机,并将获取到的待分类文本中的关键词进行替换,分别利用每个所述有限状态自动机对所述待分类文本执行匹配操作;根据匹配结果确定与所述待分类文本之间的规则匹配得分最高的有限状态自动机,并将所述有限状态自动机对应语法规则的意图类别作为所述待分类文本的意图分类结果。2.根据权利要求1所述的方法,其特征在于,所述每个所述标注实例中包含一个句子,以及所述句子对应的意图分类标签,包括:每个所述句子由若干个分词后的词语组成,每个所述句子中的词语对应各自的词序号,根据词序号确定所述句子的句子长度,并将超过长度阈值后的句子中的词语进行截断,其中每个所述句子对应一个预设的意图分类标签。3.根据权利要求1所述的方法,其特征在于,所述关键词包括用于表示时间、数量及命名体的词语,所述对每个所述标注实例中的句子执行语法规则抽取操作,包括:利用预置的正则表达式对所述句子中用于表示时间和数量的词语进行提取,并将所述句子中用于表示时间和数量的词语替换为相应的词语标记;利用命名体识别分析器对所述句子进行分析,得到所述句子中用于表示命名体的词语,并将所述句子中用于表示所述命名体的词语替换为相应的词语标记,其中所述命名体包括人名、地名和机构名。4.根据权利要求1所述的方法,其特征在于,所述基于所述句子以及所述第一语法规则进行语法规则的扩展,得到扩展后的第二语法规则,包括:计算任意两个所述第一语法规则之间的编辑距离,基于所述编辑距离对所述第一语法规则进行合并,得到合并后的至少一个第二语法规则:基于所述第一语法规则中的关键词,确定含有相同关键词的所述第一语法规则,将所述第一语法规则中的所述关键词周边的词语进行合并,得到合并后的至少一个第二语法规则:基于预设的常用句型将所述句子的句型进行转化,得到转化后的不同句型的句子,对所述不同句型的句子分别执行所述语法规则抽取操作,得到转化后的至少一个第二语法规则;确定所述句子中的停用词和插入语,将所述句子中的停用词和插入语进行删除,以便生成新句型对应的句子,将所述新句型对应的句子执行所述语法规则抽取操作,得到新生成的至少一个第二语法规则。5.根据权利要求1所述的方法,其特征在于,每个所述语法规则分别对应一个正则表达
式,所述将所述语法规则集合中的每个语法规则分别转化为相应的有限状态自动机,包括利用预设的转化算法将所述正则表达式分别转化为一个对应的有限状态自动机,并将所述有限状态自动机表示为:其中,表示有...

【专利技术属性】
技术研发人员:张献涛曾祥永支涛
申请(专利权)人:北京云迹科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1