文本意图分类方法、装置、设备及存储介质制造方法及图纸

技术编号：34432105 阅读：26 留言：0更新日期：2022-08-06 16:10

本公开提供一种文本意图分类方法、装置、设备及存储介质。该方法包括：获取基础语料数据，基础语料数据中包含多个标注实例；对每个标注实例中的句子执行语法规则抽取操作，得到每个句子对应的第一语法规则；基于句子以及第一语法规则进行语法规则的扩展，得到第二语法规则，并将第一语法规则和第二语法规则组成语法规则集合；将每个语法规则分别转化为相应的有限状态自动机，并将获取到的待分类文本中的关键词进行替换，分别利用每个有限状态自动机对待分类文本执行匹配操作；将规则匹配得分最高的有限状态自动机对应语法规则的意图类别作为待分类文本的意图分类结果。本公开提升了文本意图分类的准确性，提升分类效率及分类性能。能。能。

全部详细技术资料下载

【技术实现步骤摘要】
文本意图分类方法、装置、设备及存储介质

[0001]本公开涉及文本分类
，尤其涉及一种文本意图分类方法、装置、设备及存储介质。

技术介绍

[0002]随着智能化设备以及语音识别技术的发展，语音识别在语音对话中得到了广泛应用，通过语音识别技术可以对说话者的意图进行分析。例如在人机语音交互过程中，通过获取说话者的语音文本，利用文本意图分类算法来识别语音文本对应的意图，比如用户咨询的是哪一类问题。
[0003]现有技术中，目前的文本意图分类算法主要是基于数据驱动的机器学习的方法，特别是基于深度学习模型的文本意图分类方法，这种基于模型的文本意图分类方法，模型需要大量的标注数据的支持，导致人工成本高；并且由于模型通常是一个黑盒子，模型解释性不足，因此在一些实际高要求的环境里难以发挥作用。另外，基于传统规则系统的文本意图分类方法，又过分依赖专家知识，没法利用大量的数据，导致分类性能比较差，降低了文本意图分类的准确性。

技术实现思路

[0004]有鉴于此，本公开实施例提供了一种文本意图分类方法、装置、设备及存储介质，以解决现有技术存在的文本意图分类的成本高，分类性能比较差，分类结果的准确性比较低的问题。
[0005]本公开实施例的第一方面，提供了一种文本意图分类方法，包括：获取基础语料数据，基础语料数据中包含多个标注实例，每个标注实例中包含一个句子，以及句子对应的意图分类标签；对每个标注实例中的句子执行语法规则抽取操作，以便将句子中的关键词进行替换，分别得到每个句子对应的第一语法规则；基于句子...

【技术保护点】

【技术特征摘要】
1.一种文本意图分类方法，其特征在于，包括：获取基础语料数据，所述基础语料数据中包含多个标注实例，每个所述标注实例中包含一个句子，以及所述句子对应的意图分类标签；对每个所述标注实例中的句子执行语法规则抽取操作，以便将所述句子中的关键词进行替换，分别得到每个所述句子对应的第一语法规则；基于所述句子以及所述第一语法规则进行语法规则的扩展，得到扩展后的第二语法规则，将所述第一语法规则以及所述第二语法规则组成语法规则集合，所述语法规则集合中的每个语法规则具有与所述句子相对应的意图分类标签；将所述语法规则集合中的每个语法规则分别转化为相应的有限状态自动机，并将获取到的待分类文本中的关键词进行替换，分别利用每个所述有限状态自动机对所述待分类文本执行匹配操作；根据匹配结果确定与所述待分类文本之间的规则匹配得分最高的有限状态自动机，并将所述有限状态自动机对应语法规则的意图类别作为所述待分类文本的意图分类结果。2.根据权利要求1所述的方法，其特征在于，所述每个所述标注实例中包含一个句子，以及所述句子对应的意图分类标签，包括：每个所述句子由若干个分词后的词语组成，每个所述句子中的词语对应各自的词序号，根据词序号确定所述句子的句子长度，并将超过长度阈值后的句子中的词语进行截断，其中每个所述句子对应一个预设的意图分类标签。3.根据权利要求1所述的方法，其特征在于，所述关键词包括用于表示时间、数量及命名体的词语，所述对每个所述标注实例中的句子执行语法规则抽取操作，包括：利用预置的正则表达式对所述句子中用于表示时间和数量的词语进行提取，并将所述句子中用于表示时间和数量的词语替换为相应的词语标记；利用命名体识别分析器对所述句子进行分析，得到所述句子中用于表示命名体的词语，并将所述句子中用于表示所述命名体的词语替换为相应的词语标记，其中所述命名体包括人名、地名和机构名。4.根据权利要求1所述的方法，其特征在于，所述基于所述句子以及所述第一语法规则进行语法规则的扩展，得到扩展后的第二语法规则，包括：计算任意两个所述第一语法规则之间的编辑距离，基于所述编辑距离对所述第一语法规则进行合并，得到合并后的至少一个第二语法规则：基于所述第一语法规则中的关键词，确定含有相同关键词的所述第一语法规则，将所述第一语法规则中的所述关键词周边的词语进行合并，得到合并后的至少一个第二语法规则：基于预设的常用句型将所述句子的句型进行转化，得到转化后的不同句型的句子，对所述不同句型的句子分别执行所述语法规则抽取操作，得到转化后的至少一个第二语法规则；确定所述句子中的停用词和插入语，将所述句子中的停用词和插入语进行删除，以便生成新句型对应的句子，将所述新句型对应的句子执行所述语法规则抽取操作，得到新生成的至少一个第二语法规则。5.根据权利要求1所述的方法，其特征在于，每个所述语法规则分别对应一个正则表达
式，所述将所述语法规则集合中的每个语法规则分别转化为相应的有限状态自动机，包括利用预设的转化算法将所述正则表达式分别转化为一个对应的有限状态自动机，并将所述有限状态自动机表示为：其中，表示有...

【专利技术属性】
技术研发人员：张献涛，曾祥永，支涛，
申请(专利权)人：北京云迹科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人