一种基于领域分类和辅助序列构造的意图识别方法技术

技术编号：39785666 阅读：8 留言：0更新日期：2023-12-22 02:26

本发明专利技术涉及语言识别技术领域，具体地说，涉及一种基于领域分类和辅助序列构造的意图识别方法；该方法首先根据获取的对话领域文本数据构建对话领域分类器，分类待输入的对话内容得到领域词汇；然后根据领域词汇构造对话序列；最后构建意图实体联合预测模型，输入对话序列输出预测结果；提高了多轮对话的预测的准确性和预测速度，消除了数据间的冗余，避免大量稀疏信息存在导致不能准确识别实体的问题

全部详细技术资料下载

【技术实现步骤摘要】
一种基于领域分类和辅助序列构造的意图识别方法

[0001]本专利技术涉及语言识别
，具体地说，涉及一种基于领域分类和辅助序列构造的意图识别方法
。

技术介绍

[0002]随着人工智能技术的不断发展，智能技术理论不断的创新，将智能技术应用到各行各业已是各个国家
、
企业重要目标
。
以智能化的技术支持
、
科学化的理论依据和创新性的方法理念为各产业赋能成为当下企业重要方法
。
作为世界级的大型企业，需要且必须思考如何将人工智能技术与自身产业紧密结合
。
自然语言处理作为人工智能皇冠上的明珠，而智能交互作为自然语言处理的上层应用，显然已成为各行业提升产能
、
改变效率的有力工具
。
[0003]在人工智能和自然语言处理领域，对话系统成为了一个热点话题
。
对话系统的核心就是意图识别，它能够自动地理解用户的意图，并给出与之匹配的正确回应
。
然而，目前的意图识别技术仍然存在许多挑战
。
例如，在多轮对话中，用户的发言和意图受到上下文影响，而且用户在后续对话中可能会改变意图，这些都使得意图识别变得极具挑战性
。
在单轮对话中，缺少上下文信息以及不同用户之间的语言习惯的差异等问题，也为意图识别带来了困难
。
[0004]现有技术的缺点：
1.
标注数据量小
。
现有技术需要足够数量的标注数据来...

【技术保护点】

【技术特征摘要】
1.
一种基于领域分类和辅助序列构造的意图识别方法，其特征在于，首先根据获取的对话领域文本数据构建对话领域分类器，根据所述对话领域分类器分类待输入的对话内容，得到领域词汇；然后根据所述领域词汇构造对话序列；最后构建意图实体联合预测模型，将所述对话序列输入至所述意图实体联合预测模型中，输出预测结果
。2.
根据权利要求1所述的一种基于领域分类和辅助序列构造的意图识别方法，其特征在于，具体包括以下步骤：步骤1：获取对话领域文本数据，并根据所述对话领域文本数据构建对话领域分类器；步骤2：根据所述对话领域分类器分类待输入的对话内容，得到领域词汇；步骤3：根据所述领域词汇构建
N
‑
grams
模型，并根据所述
N
‑
grams
模型构造对话序列；步骤4：构建意图实体联合预测模型，将所述对话序列输入至所述意图实体联合预测模型中，输出预测结果
。3.
根据权利要求2所述的一种基于领域分类和辅助序列构造的意图识别方法，其特征在于，所述步骤1具体包括以下步骤：步骤
11
：获取对话领域文本数据，调用初始化函数定义
ERNIE
网络结构；步骤
12
：获取
ERNIE
网络的预训练权重二进制数据文件，在所述
ERNIE
网络输出添加线性分类层，构建对话领域分类器
。4.
根据权利要求3所述的一种基于领域分类和辅助序列构造的意图识别方法，其特征在于，所述步骤2具体包括以下步骤：步骤
21
：预处理所述对话领域文本数据，并将预处理后的所述对话领域文本数据划分为对话领域文本数据训练集
、
对话领域文本数据验证集和对话领域文本数据测试集；步骤
22
：设置对话领域分类器超参数，训练所述对话领域分类器；步骤
23
：根据所述对话领域文本数据测试集，评估训练后的所述对话领域分类器，得到评估结果；步骤
24
：根据所述评估结果调整所述对话领域分类器，根据调整后的所述对话领域分类器分类待输入的对话内容，得到领域词汇
。5.
根据权利要求4所述的一种基于领域分类和辅助序列构造的意图识别方法，其特征在于，所述步骤
22
具体包括以下步骤：步骤
221
：设置对话领域分类器超参数；所述超参数包括学习率
、
批次
batch
大小
、
迭代次数；步骤
222
：调用
HMM
模型，分词所述对话领域文本数据；步骤
223
：调用词袋模型编码文本数据，将所述对话领域文本数据转化为模型可处理的数字向量数据；步骤
224
：将编码的所述数字向量数据输入至
ERNIE
网络进行迭代训练，直至达到所述迭代次数，得到训练后的对话领域分类器
。6.
根据权利要求4所述的一种基于领域分类和辅助序列构造的意图识别方法，其特征在于，所述步骤3具体包括以下步骤：步骤
31
：将所述对话领域文本数据训练集和所述对话领域文本数据测试集合并为文本列表数据；步骤
32
：将预处理后的所述文本列表数据，枚举连续词出现的频次，构建
N
‑

【专利技术属性】
技术研发人员：叶林峰，李尤，宋卫平，杨帆，李欢欢，邓大建，徐小云，李凯，
申请(专利权)人：四川中电启明星信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人