对话预标注方法、系统、计算机设备和存储介质技术方案

技术编号：39050188 阅读：13 留言：0更新日期：2023-10-12 19:42

本发明专利技术提供了一种对话预标注方法，包括：获取对话数据；所述对话数据基于语音识别得到；对所述对话数据进行预处理；将预处理后的所述对话数据输入预标注模型，对所述对话数据进行预标注；其中，所述预标注模型基于提示学习和预训练语言模型训练得到。本方案针对没有标签的数据集，在标注阶段之前使用预训练大模型，通过提示(Prompt)的方式进行零样本预标注，提高业务整体执行效率，并淡化人力在业务执行过程中的绝对影响力，间接提升数据质量。间接提升数据质量。间接提升数据质量。

全部详细技术资料下载

【技术实现步骤摘要】
对话预标注方法、系统、计算机设备和存储介质

[0001]本申请涉及人工智能
，特别是涉及一种对话预标注方法、系统、计算机设备和存储介质。

技术介绍

[0002]数据标注是指对未经处理的初级数据，如语音、图片、文本、视频等进行加工处理并转换为机器可识别信息的过程。对话预标注则是对未经处理的文本数据进行预标注的过程，典型的情景是对大量无标签的文本数据按需求完成语义分类任务。对话预标注既可以直接用于完成一些下游生产业务，也可以使用标注完成的数据来进行更加多样的下游任务。目前，在处理文本类数据过程中，广泛使用到的是预训练语言模型(Pretrained Language Model)。预训练语言模型，通常通过概率论中的链式法则来表示整个句子各个单词间的联合概率，可以用来求解某个句子的概率。典型的预训练语言模型包括基于最大化似然函数思想的GPT大模型，和采用全局的双向自注意力机制的BERT大模型，其特点是模型的参数量大，算法结构复杂，其对文本信息的处理能力也随之提升。
[0003]使用预训练语言模型完成对话预标注任务的一种方式，是训练模型在大量无标签数据上完成无监督任务(Pre
‑
train)，训练好后的预训练语言模型可以从一般的文本数据中提取通用的知识。因此，在预训练语言模型的基础上，再通过使用大量标注数据来对模型进行微调(Fine
‑
tune)，可以使得模型利用学到的通用知识来快速地完成标注数据对应的标注任务。这种使用大量标注数据对预训练模型进行微调的方式，被称为微调预标注。...

【技术保护点】

【技术特征摘要】
1.对话预标注方法，其特征在于，所述方法包括：获取对话数据；所述对话数据基于语音识别得到；对所述对话数据进行预处理；将预处理后的所述对话数据输入预标注模型，对所述对话数据进行预标注；其中，所述预标注模型基于提示学习和预训练语言模型训练得到。2.根据权利要求1所述的方法，其特征在于，所述对所述对话数据进行预处理，包括：对所述对话数据进行规则纠正；将进行规则纠正后的所述对话数据输入语句纠正预训练模型进行二次纠正；对进行过二次纠正的所述对话数据进行轮次纠正。3.根据权利要求2所述的方法，其特征在于，所述规则纠正包括：空格替换、调整符号语气词顺序、正则替换、去除重复子串。4.根据权利要求2所述的方法，其特征在于，所述将预处理后的所述对话数据输入预标注模型，对所述对话数据进行预标注，包括：构建包括所述对话数据的提示模板；将所述提示模板输入生成式预训练模型，得到所述对话数据的标记信息；根据预设标签词映射，将所述标记信息映射为预设标签词，实现对所述对话数据的标注。5.根据权利要求4所述的方法，其特征在于，所述构建包括所述对话数据的提示模板，包括：从已有数据样本中选取少量样例合成实例，构建提示模版；所述提示模版包括：任务描述模块、示例模块以及输入模块；获取任务描述信息、示例信息以及输入信息，并填入对应模块，得到所包含对话任务的提示模板；其中，所述对话数据为所述输入信息，所述示...

【专利技术属性】
技术研发人员：李世闯，李阳，王怡闻，王塬夫，刘超雄，温颖，张伟楠，
申请(专利权)人：上海数字大脑科技研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人