对话预标注方法、系统、计算机设备和存储介质技术方案

技术编号:39050188 阅读:13 留言:0更新日期:2023-10-12 19:42
本发明专利技术提供了一种对话预标注方法,包括:获取对话数据;所述对话数据基于语音识别得到;对所述对话数据进行预处理;将预处理后的所述对话数据输入预标注模型,对所述对话数据进行预标注;其中,所述预标注模型基于提示学习和预训练语言模型训练得到。本方案针对没有标签的数据集,在标注阶段之前使用预训练大模型,通过提示(Prompt)的方式进行零样本预标注,提高业务整体执行效率,并淡化人力在业务执行过程中的绝对影响力,间接提升数据质量。间接提升数据质量。间接提升数据质量。

【技术实现步骤摘要】
对话预标注方法、系统、计算机设备和存储介质


[0001]本申请涉及人工智能
,特别是涉及一种对话预标注方法、系统、计算机设备和存储介质。

技术介绍

[0002]数据标注是指对未经处理的初级数据,如语音、图片、文本、视频等进行加工处理并转换为机器可识别信息的过程。对话预标注则是对未经处理的文本数据进行预标注的过程,典型的情景是对大量无标签的文本数据按需求完成语义分类任务。对话预标注既可以直接用于完成一些下游生产业务,也可以使用标注完成的数据来进行更加多样的下游任务。目前,在处理文本类数据过程中,广泛使用到的是预训练语言模型(Pretrained Language Model)。预训练语言模型,通常通过概率论中的链式法则来表示整个句子各个单词间的联合概率,可以用来求解某个句子的概率。典型的预训练语言模型包括基于最大化似然函数思想的GPT大模型,和采用全局的双向自注意力机制的BERT大模型,其特点是模型的参数量大,算法结构复杂,其对文本信息的处理能力也随之提升。
[0003]使用预训练语言模型完成对话预标注任务的一种方式,是训练模型在大量无标签数据上完成无监督任务(Pre

train),训练好后的预训练语言模型可以从一般的文本数据中提取通用的知识。因此,在预训练语言模型的基础上,再通过使用大量标注数据来对模型进行微调(Fine

tune),可以使得模型利用学到的通用知识来快速地完成标注数据对应的标注任务。这种使用大量标注数据对预训练模型进行微调的方式,被称为微调预标注。通过这种方式训练的模型可以在微调任务的同类任务上达到比较好的准确率。
[0004]微调预标注所面对的问题是预训练语言模型的微调过程中需要用到大量人工标注的数据,这会带来很大的人工成本。此外,使用一类任务的标注数据微调的模型只能完成同一任务,无法在没见过或者少量见过的数据上进行推理。

技术实现思路

[0005]本专利技术实施例提供了一种对话预标注方法、系统、计算机设备和存储介质,以至少解决相关技术中需要用到大量人工标注的数据,无法在没见过或者少量见过的数据上进行推理的问题。
[0006]根据本专利技术的一个实施例,提供了一种对话预标注方法法,包括:获取对话数据;所述对话数据基于语音识别得到;对所述对话数据进行预处理;将预处理后的所述对话数据输入预标注模型,对所述对话数据进行预标注;其中,所述预标注模型基于提示学习和预训练语言模型训练得到。
[0007]其中,所述对所述对话数据进行预处理,包括:对所述对话数据进行规则纠正;将进行规则纠正后的所述对话数据输入语句纠正预训练模型进行二次纠正;对进行过二次纠正的所述对话数据进行轮次纠正。
[0008]其中,所述规则纠正包括:空格替换、调整“符号语气词”顺序、正则替换、去除重复
子串。
[0009]其中,所述将预处理后的所述对话数据输入预标注模型,对所述对话数据进行预标注,包括:构建包括所述对话数据的提示模板;将所述提示模板输入生成式预训练模型,得到所述对话数据的标记信息;根据预设标签词映射,将所述标记信息映射为预设标签词,实现对所述对话数据的标注。
[0010]其中,所述构建包括所述对话数据的提示模板,包括:从已有数据样本中选取少量样例合成实例,构建提示模版;所述提示模版包括:任务描述模块、示例模块以及输入模块;获取任务描述信息、示例信息以及输入信息,并填入对应模块,得到所包含对话任务的提示模板;其中,所述对话数据为所述输入信息,所述示例模块的输入为对话数据样本,所述示例模块的输出为所述对话数据样本的标记信息。
[0011]其中,所述将所述提示模板输入生成式预训练模型,得到所述对话数据的标记信息包括:将所述提示模板作为所述生成式预训练模型的输入,以提示和约束所述生成式预训练模型的数据生成;所述生成式预训练模型基于自回归的方式生成标记信息。
[0012]可选地,所述方法还包括:将预标注完成的所述对话数据用于下游模型的训练。
[0013]根据本专利技术的另一个实施例,还提供了一种基于提示学习的对话预标注系统,所述系统包括:获取模块,用于获取对话数据;所述对话数据基于语音识别得到;预处理模块,用于对所述对话数据进行预处理;预标注模块,用于将预处理后的所述对话数据输入预标注模型,对所述对话数据进行预标注;其中,所述预标注模型基于提示学习和预训练语言模型训练得到。
[0014]根据本专利技术的另一个实施例,还提供了一种计算机设备,包括存储器和处理器,所述处理器与存储器耦合,其特征在于,所述存储器中存储有至少一条程序指令或代码,所述至少一条程序指令或代码由所述处理器加载并执行,以使所述计算机设备实现上述的对话预标注方法。
[0015]根据本专利技术的另一个实施例,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现所述的对话预标注方法的步骤。
[0016]本专利技术提出了基于提示(Prompt)学习的对话预标注方法,通过将获取的对话数据进行预处理后,输入生成式预训练模型即可得进行相应的预标注;而所述预标注模型是基于提示学习和预训练语言模型训练得到,经过大规模相关语料训练的自然语言处理大模型能够有提示(Prompt)微调的推理能力,可以对下游任务进行零样本或少样本学习来获取预标注标签。
附图说明
[0017]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0018]图1为本申请实施例提供的应用场景示意图;
[0019]图2是本专利技术实施例的方法的终端的硬件结构框图;
[0020]图3为本申请实施例提供的本申请的方法的流程示意图;
[0021]图4为本申请实施例提供的本申请的方法的实例示意图;
[0022]图5为一个实施例中计算机设备的示意性结构框图。
具体实施方式
[0023]本申请实施例提供了一种对话预标注方法、系统、计算机设备和存储介质,可降低人工标注数据的成本和增强模型在不同类型任务上的泛化能力的效果。
[0024]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0025]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0026]本申请提供的对话预标注方法,可以全部在服务器一侧执行,也可以全部在客户端一侧执行,还可以由服务器和客户端共同执行。在对话预标注由服务器和客户端共同执行时,可以应用于如图1所示的应用环境中。其中,客户端201与服务器202通过网络进行通信。
[0027]示例性地,客户本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.对话预标注方法,其特征在于,所述方法包括:获取对话数据;所述对话数据基于语音识别得到;对所述对话数据进行预处理;将预处理后的所述对话数据输入预标注模型,对所述对话数据进行预标注;其中,所述预标注模型基于提示学习和预训练语言模型训练得到。2.根据权利要求1所述的方法,其特征在于,所述对所述对话数据进行预处理,包括:对所述对话数据进行规则纠正;将进行规则纠正后的所述对话数据输入语句纠正预训练模型进行二次纠正;对进行过二次纠正的所述对话数据进行轮次纠正。3.根据权利要求2所述的方法,其特征在于,所述规则纠正包括:空格替换、调整符号语气词顺序、正则替换、去除重复子串。4.根据权利要求2所述的方法,其特征在于,所述将预处理后的所述对话数据输入预标注模型,对所述对话数据进行预标注,包括:构建包括所述对话数据的提示模板;将所述提示模板输入生成式预训练模型,得到所述对话数据的标记信息;根据预设标签词映射,将所述标记信息映射为预设标签词,实现对所述对话数据的标注。5.根据权利要求4所述的方法,其特征在于,所述构建包括所述对话数据的提示模板,包括:从已有数据样本中选取少量样例合成实例,构建提示模版;所述提示模版包括:任务描述模块、示例模块以及输入模块;获取任务描述信息、示例信息以及输入信息,并填入对应模块,得到所包含对话任务的提示模板;其中,所述对话数据为所述输入信息,所述示...

【专利技术属性】
技术研发人员:李世闯李阳王怡闻王塬夫刘超雄温颖张伟楠
申请(专利权)人:上海数字大脑科技研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1