词法分析模型的训练方法、装置、电子设备、存储介质制造方法及图纸

技术编号：24685323 阅读：29 留言：0更新日期：2020-06-27 08:29

本发明专利技术提供一种中文词法分析模型的训练方法、装置、电子设备、存储介质，中文词法分析模型的训练方法包括：提供训练语料集；对所述训练语料集进行标注；对训练语料集中的各训练语料作为所述中文词法分析模型的输入，所述中文词法分析模型在输入层及输出层之间依次包括嵌入层、第一双向门控循环单元层、第二双向门控循环单元层、全连接层及条件随机场层；至少将所述人工标注作为所述中文词法分析模型的输出，以对所述中文词法分析模型进行训练。本发明专利技术可以通过中文词法分析模型的训练，利用经训练的中文词法分析模型进行中文词法分析，并可应用于分词、词性标注、槽位预测及用户意图预测中，以减少人力成本。

Training method, device, electronic equipment and storage medium of lexical analysis model

全部详细技术资料下载

【技术实现步骤摘要】
词法分析模型的训练方法、装置、电子设备、存储介质
本专利技术涉及计算机应用
，尤其涉及一种中文词法分析模型的训练方法、预测方法、训练装置、电子设备、存储介质。
技术介绍
随着大数据和互联网技术的发展，人工智能产品越来越多地进入普通人的生活中，比如智能手机上的语音助手，可以帮助用户更快地找到自己感兴趣的商品，语音助手和人进行交流的核心技术是自然语言处理，分词、词性标注、命名实体识别这些基础的底层模型，直接影响NLP(NaturalLanguageProcessing，NLP多数情况下指的是计算机上各种大同小异的语言处理应用，以及用NLP技术所构建的实际应用程序，比如分词、词性标注、命名实体识别、句法分析、语法依存等)技术的精确度，工业界现有的分词技术是双向最大匹配算法，词性标注和命名实体识别是依靠大量人工标注，结合条件随机场等传统机器学习方法进行预测，如何能构建一套通用的NLP底层算法，是一个很有意义的工作。现有分词技术采用双向最大匹配方法，需要构建比较完善的词库，而且对新登录词不能识别；现有词性标注技术和命名实体识别技...

【技术保护点】
1.一种中文词法分析模型的训练方法，其特征在于，包括：/n提供训练语料集；/n对所述训练语料集进行标注；/n对训练语料集中的各训练语料作为所述中文词法分析模型的输入，所述中文词法分析模型在输入层及输出层之间依次包括嵌入层、第一双向门控循环单元层、第二双向门控循环单元层、全连接层及条件随机场层；/n至少将所述人工标注作为所述中文词法分析模型的输出，以对所述中文词法分析模型进行训练，其中，/n所述中文词法分析模型至少应用于分词、词性标注、槽位预测及用户意图预测中的一项或多项。/n

【技术特征摘要】
1.一种中文词法分析模型的训练方法，其特征在于，包括：
提供训练语料集；
对所述训练语料集进行标注；
对训练语料集中的各训练语料作为所述中文词法分析模型的输入，所述中文词法分析模型在输入层及输出层之间依次包括嵌入层、第一双向门控循环单元层、第二双向门控循环单元层、全连接层及条件随机场层；
至少将所述人工标注作为所述中文词法分析模型的输出，以对所述中文词法分析模型进行训练，其中，
所述中文词法分析模型至少应用于分词、词性标注、槽位预测及用户意图预测中的一项或多项。

2.如权利要求1所述的中文词法分析模型的训练方法，其特征在于，所述中文词法分析模型的输出用于该中文词法分析模型或另一中文词法分析模型的训练。

3.如权利要求1或2所述的中文词法分析模型的训练方法，其特征在于，所述对所述训练语料集进行标注还包括：
利用映射表验证方式或多模型交叉验证方式对所述训练语料集的标注进行验证。

4.如权利要求1或2所述的中文词法分析模型的训练方法，其特征在于，所述标注的内容至少包括：用户首句输入、业务场景及槽位槽值标注中的一项或多项。

5.如权利要求1或2所述的中文词法分析模型的训练方法，其特征在于，所述嵌入层用于提取各训练语料的特征向量，以输入所述第一双向门控循环单元层，其中，所提取的特征向量包括字符特征向量、词语特征向量、上下文特征向量及槽位标记向量中的一项或多项。

6.如权利要求5所述的中文词法分析模型的训练方法，其特征在于，所述槽位标记向量包括：标识槽位起始的向量、标识槽位中间的向量、标识除了槽位起始和槽位中间的向量。
<...

【专利技术属性】
技术研发人员：王颖帅，李晓霞，苗诗雨，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人