一种会话意图智能识别模型的构建方法、装置及设备制造方法及图纸

技术编号：26846150 阅读：18 留言：0更新日期：2020-12-25 13:08

本发明专利技术适用大数据人工智能技术领域，提供会话意图智能识别模型的构建方法、装置及设备，包括：获取语料数据，所述语料数据包括已标注语料数据以及未标注语料数据；根据已标注语料数据以及预设的语义分析算法，对未标注语料数据进行处理，生成有标签信息的意图语料数据；根据意图语料数据，对预设的初始意图识别模型进行迭代训练，构建目标意图识别模型。本发明专利技术利用大量无标注语料数据，基于预设的语义分析算法，实现训练语料半自动标注，仅需少量纠正即可完成大规模语料标注过程，降低语料标注成本；另外，将语料标注、模型优化问题作为一个统一任务进行迭代，实现意图识别模型生成过程中人工干预最小化、解决数据标注耗时、模型训练困难的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种会话意图智能识别模型的构建方法、装置及设备
本专利技术属于大数据人工智能
，尤其涉及一种会话意图智能识别模型的构建方法、装置及设备。
技术介绍
随着社会信息化、智能化不断发展，基于自然语言理解的智能客服、智能助手、聊天机器人等智能会话应用开始广泛使用。意图识别模型在人机交互会话中，分析用户输入信息、确认用户交互意图，是此类应用的核心组件，意图识别模型的优劣对应用智能化程度和用户体验水平具有决定性影响。目前意图识别模型，主要为有监督方式训练，需要标注大量语料，而此类应用一般面向海量互联网用户，用户意图复杂繁多且容易随着时间而变化。现有意图识别模型构建过程主要包括语料标注和模型训练两个过程，其中，语料标注、意图修改需要花费大量人力和时间，如何快速、高效、低成本地构建意图识别模型一直是此类应用建设中的关键点。现有意图识别模型构建方法主要有：采用人工标注方式对领域文本数据集进行标注，之后进行模型训练；或者通过聚类方法进行意图发现及意图语料收集，但大规模的业务数据从不同角度理解能够得到不同的主题类别，聚类发现的主题往往并非业务所需要的，该方法远远无法满足实际业务需求；或者通过模型预测结果作为指导，利用大量用户选择数据生成训练样本，但该方法使用标准样本训练初始预测模型，而标准样本依赖人工标注获取，该方法没有解决标准样本的标注问题，在无法获取用户反馈时无法利用。由此可见，现有的意图识别模型构建方法存在需要大量人工干预、数据标注耗时多以及模型训练困难的问题。
技术实现思路
本专利技术实施...

【技术保护点】
1.一种会话意图智能识别模型的构建方法，其特征在于，包括：/n获取语料数据，所述语料数据包括已标注语料数据以及未标注语料数据；/n根据所述已标注语料数据以及预设的语义分析算法，对所述未标注语料数据进行处理，生成有标签信息的意图语料数据；/n根据所述意图语料数据，对预设的初始意图识别模型进行迭代训练，构建目标意图识别模型；所述初始意图识别模型是通过所述已标注语料数据经神经网络训练生成；/n判断所述迭代训练是否满足预设的迭代结束条件；若否，则返回至所述获取语料数据的步骤；若是，则迭代训练结束。/n

【技术特征摘要】
1.一种会话意图智能识别模型的构建方法，其特征在于，包括：
获取语料数据，所述语料数据包括已标注语料数据以及未标注语料数据；
根据所述已标注语料数据以及预设的语义分析算法，对所述未标注语料数据进行处理，生成有标签信息的意图语料数据；
根据所述意图语料数据，对预设的初始意图识别模型进行迭代训练，构建目标意图识别模型；所述初始意图识别模型是通过所述已标注语料数据经神经网络训练生成；
判断所述迭代训练是否满足预设的迭代结束条件；若否，则返回至所述获取语料数据的步骤；若是，则迭代训练结束。

2.根据权利要求1所述的会话意图智能识别模型的构建方法，其特征在于，所述预设的语义分析算法包括核心词提取算法以及语义匹配算法；
所述根据所述已标注语料数据以及预设的语义分析算法，对所述未标注语料数据进行处理，生成有标签信息的意图语料数据的步骤，包括：
根据所述语料数据以及预设的核心词提取算法，分别提取所述已标注语料数据以及未标注语料数据的语料核心词；
根据所述预设的语义匹配算法，计算所述已标注语料数据以及未标注语料数据的语料核心词的相似度；
根据相似度小于预设距离阈值的已标注语料数据以及未标注语料数据，生成有标签信息的意图语料数据。

3.根据权利要求2所述的会话意图智能识别模型的构建方法，其特征在于，所述预设的语义分析算法还包括语义压缩算法；
所述根据所述已标注语料数据以及预设的语义分析算法，对所述未标注语料数据进行处理，生成有标签信息的意图语料数据的步骤，还包括：
响应于第一已标注语料数据和/或第一意图语料数据的标签信息的删除操作，根据所述语义压缩算法，计算所述第一已标注语料数据和/或第一意图语料数据的向量表示；
获取与所述第一已标注语料数据和/或第一意图语料数据的向量表示的相似度符合预设相似阈值的第二已标注语料数据和/或第二意图语料数据，并对所述第二已标注语料数据和/或第二意图语料数据的标签信息进行删除。

4.根据权利要求1所述的会话意图智能识别模型的构建方法，其特征在于，所述根据所述已标注语料数据以及预设的语义分析算法，对所述未标注语料数据进行处理，生成有标签信息的意图语料数据的步骤，包括：
获取所述已标注语料数据的意图中心表示；
获取所述未标注语料数据的矩阵表示；
根据所述预设的语义分析算法，计算所述未标注语料数据的矩阵表示与所述意图中心表示的距离值，并将符合预设距离阈值的未标注语料数据按照所述意图中心表示进行处理，生成有标签信息的意图语料数据。

5.根据权利要求1所述的会话意图智能识别模型的构建方法，其特征在于，所述根据所述已标注语料数据以及预设的语义分析算法，对所述未标注语料数据进行处理，生成有标签信息的意图语料数据的步骤，包括：
根据所述语义分析算法，计算所述未标注语料数据的向量表示以及所述已标注语料数据的意图中心表示；

【专利技术属性】
技术研发人员：周鹏飞，马亮，
申请(专利权)人：北京慧辰资道资讯股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人