多领域联合模型训练和多领域联合模型的使用方法、电子设备和存储介质技术

技术编号：41200252 阅读：2 留言：0更新日期：2024-05-07 22:27

本发明专利技术公开多领域联合模型训练和多领域联合模型的使用方法、电子设备和存储介质，其中，一种多领域联合模型训练方法，包括：将收集的多个领域的标注语料中的领域信息和槽位信息进行整理，以将领域特有的语义槽表示为领域名+槽位名，将多个领域通用的槽位直接用槽位名表示；提取所述标注语料的领域知识特征；基于整理后的所述领域信息、所述槽位信息和提取的所述领域知识特征对所述联合模型进行训练，其中，所述多个领域的标注语料经过所述输入层进行向量编码，然后进入所述BERT层进行学习，最后经由对应领域的输出层输出，在训练过程中所述输入层和所述BERT层由多个领域共享。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及模型训练，特别是涉及一种多领域联合模型训练、多领域联合模型的使用方法、电子设备和存储介质。

技术介绍

1、目前已有语义系统的抽取流程大多是人工定义语义领域范畴，并在领域范围内，定义一些意图和槽位；通过规则或者机器学习的方法进行意图分类和槽位信息抽取。

2、其主要的信息抽取方法主要都是单领域独立实现，将领域内的信息抽取作为一个序列标注任务来实现，不同领域有相互独立的模型。

3、现有技术目前主要采用的方法基本都是基于规则模板的方法和基于深度学习的方法；主要的抽取流程一般是先进行领域分类，然后按照领域分类后的结果，通过对应领域的信息抽取模型进行抽取识别。

4、目前主要的信息抽取方法主要都是单领域独立实现，将领域内的信息抽取作为一个序列标注任务来实现，不同领域相互独立，比如音乐领域主要抽取歌手名、歌曲名、歌曲类型等，而导航领域则抽取起点、终点、导航偏好等信息。

5、例如，基于规则模板的方法：通过模板对文本进行匹配，并将匹配到的信息提取出来，一般采用类似正则表达式作为模板。

6、基于深度学习的方法：将信息抽取作为序列标注任务，采用lstm或者bert等深度学习模型进行序列标注。

7、上面介绍的两种语义槽位解析技术，都是针对每个领域定制一个槽位解析系统，每个系统仅能支持单一特定领域的槽位解析。若存在多个领域，则需要多个领域独立去实现，通过额外的领域分类模型来判断相应的领域。

8、由于目前的深度学习方法主要采用预训练语言模型的方法来提升学习的性

9、这些缺陷主要是由于目前深度学习模型无法实现语言的通用学习，由于每个领域的信息定义不同，需要的数据特征和最后的输出都不相同，导致必须每个领域独立实现不同的模型。

10、由于语言本身的复杂性，不同领域的内容存在较大的内容差异，不同领域的输入特征和输出结果也存在不同，比如音乐领域主要抽取歌手名、歌曲名、歌曲类型等，而导航领域则抽取起点、终点、导航偏好等信息。这导致不同领域需要独立进行语义定义，并独立实现。

11、基于深度学习特别是预训练语言模型的方法已经广泛应用到语义理解和信息抽取系统中，由于模型的参数量逐渐扩大，其对硬件的要求也逐步提高，对内存和cpu/gpu的要求越来越高。

12、随着目前人机交互的功能越来越多，领域越来越多，相对应的模型数量和规模也逐渐扩大，带来的硬件需求和成本逐渐变大，特别是在硬件设备端侧或者硬件条件有限的情况下，模型部署和推理越来越困难，成为亟待解决的问题。

技术实现思路

1、本专利技术实施例提供了一种多领域联合模型训练和多领域联合模型的使用方法、装置和电子设备，以降低人力成本、全面抽取用户的关注点信息。

2、第一方面，本专利技术实施例提供了一种多领域联合模型训练方法，其中，所述联合模型用于领域分类和语义槽提取，所述联合模型包括一个输入层、bert层和对应于不同领域的多个输出层，所述方法包括：将收集的多个领域的标注语料中的领域信息和槽位信息进行整理，以将领域特有的语义槽表示为领域名+槽位名，将多个领域通用的槽位直接用槽位名表示；提取所述标注语料的领域知识特征；基于整理后的所述领域信息、所述槽位信息和提取的所述领域知识特征对所述联合模型进行训练，其中，所述多个领域的标注语料经过所述输入层进行向量编码，然后进入所述bert层进行学习，最后经由对应领域的输出层输出，在训练过程中所述输入层和所述bert层由多个领域共享。

3、第二方面，本专利技术实施例提供了一种多领域联合模型的使用方法，包括：获取输入句子，提取所述输入句子的领域知识特征并对所述输入句子的文本进行预处理；将预处理后的输入句子和所述领域知识特征送入根据权利要求1-7中任一项所述的联合模型，获取所述联合模型的输出结果，其中，所述输出结果至少包括领域信息和对应领域的槽位信息；对所述输出结果进行格式调整和归一化处理并输出。

4、第三方面，本专利技术实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本专利技术上述任一项信息提取方法。

5、第四方面，本专利技术实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本专利技术上述任一项多领域联合模型训练和多领域联合模型的使用方法。

6、第五方面，本专利技术实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项多领域联合模型训练和多领域联合模型的使用方法。

7、本申请的方法综合多个领域的文本信息，整合更多的数据和文本特征，达到了性能上的提升，在每个领域的信息抽取任务中，都达到了性能的提高。进一步地，由于多个领域联合学习，只用一个模型就可以实现领域分类和n个领域的语义槽位识别，极大的减少内存和cpu的占用，并减少模型部署所需的硬件成本，在模型部署上，只需要部署一个模型，从而减少了模型部署适配的工作量，实现了多领域的语义抽取的设备端离线部署应用。

本文档来自技高网...

【技术保护点】

1.一种多领域联合模型训练方法，其中，所述联合模型用于领域分类和语义槽提取，所述联合模型包括一个输入层、BERT层和对应于不同领域的多个输出层，所述方法包括：

2.根据权利要求1所述的方法，其中，所述联合模型的输入层与所述BERT层参数共享。

3.根据权利要求1所述的方法，其中，所述输入层将所述标注语料的文本特征向量和所述领域知识特征的特征向量进行融合后输入BERT层。

4.根据权利要求3所述的方法，其中，所述BERT层采用BERT模型进行文本特征的学习。

5.根据权利要求4所述的方法，其中，所述输出层对所述BERT模型输出的向量通过全连接网络进行文本分类和序列标注，之后通过CRF网络对序列标注结果进行进一步优化。

6.根据权利要求1所述的方法，其中，在所述将收集的多个领域的标注语料中的领域信息和槽位信息进行整理之后，所述方法还包括：

7.根据权利要求1所述的方法，其中，在对所述联合模型进行训练之后，所述方法还包括：

8.一种多领域联合模型的使用方法，包括：

9.一种电子设备，其包括：

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。

...

【技术特征摘要】

1.一种多领域联合模型训练方法，其中，所述联合模型用于领域分类和语义槽提取，所述联合模型包括一个输入层、bert层和对应于不同领域的多个输出层，所述方法包括：

2.根据权利要求1所述的方法，其中，所述联合模型的输入层与所述bert层参数共享。

3.根据权利要求1所述的方法，其中，所述输入层将所述标注语料的文本特征向量和所述领域知识特征的特征向量进行融合后输入bert层。

4.根据权利要求3所述的方法，其中，所述bert层采用bert模型进行文本特征的学习。

5.根据权利要求4所述的方法，其中，所述输出层对所述bert模型输出的向量通过全连接网络进行文本分类和序列标注，之后通过crf网络对序列标注结果进行进一步优化。...

【专利技术属性】
技术研发人员：徐华，朱苏，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人