一种文本的标注方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:36468561 阅读:12 留言:0更新日期:2023-01-25 23:10
本发明专利技术实施例提供了一种文本的标注方法、装置、电子设备及可读存储介质,所述方法包括:收集初始文本数据集;响应于针对初始文本数据集的标注指令操作,得到初始标注数据集;将初始标注数据集中的待标注样本输入到预先训练完成的预训练语言模型中,输出第一标注数据集;将第一标注数据集输入到预设的筛选网络,将第一标注数据集划分为不同置信度所对应的置信度数据集;响应于针对低于预设置信度的置信度数据集的标注指令操作,得到挖掘困难样本数据集;对挖掘困难样本数据集进行数据增强,得到增强数据集;将初始标注数据集、第一标注数据集、挖掘困难样本数据集和增强数据集混合,得到目标标注数据集。得到目标标注数据集。得到目标标注数据集。

【技术实现步骤摘要】
一种文本的标注方法、装置、电子设备及可读存储介质


[0001]本专利技术实施例涉及人工智能
,特别是涉及一种文本的标注方法、一种文本的标注装置、一种电子设备以及一种计算机可读存储介质。

技术介绍

[0002]在现有技术中,大规模预训练语言模型有着广泛的通用基础知识,在自然语言对话、闲聊、开放域问答、阅读理解等方面有着不言而喻的优势,但是大规模预训练语言模型也存在不足,一方面,在不同行业领域的专业知识上,技术比较欠缺,因而在实际项目中有一定的困难;另一方面,因大规模预训练语言模型的参数量巨大,因而推理时间较长,无法满足高频并发需求。

技术实现思路

[0003]本专利技术实施例是提供一种文本的标注方法、装置、电子设备以及计算机可读存储介质,以解决或部分解决目前使用预训练语言模型在对不同行业领域的专业知识上进行文本文件标注的方法存在技术欠缺、效率较低且耗资耗时巨大,无法满足高频并发需求的问题。
[0004]本专利技术实施例公开了一种文本的标注方法,所述方法包括:收集初始文本数据集;响应于针对所述初始文本数据集的标注指令操作,得到初始标注数据集;其中,所述初始标注数据集包含待标注样本;将所述初始标注数据集中的待标注样本输入到预先训练完成的预训练语言模型中,输出针对所述待标注样本的第一标注数据集;将所述第一标注数据集输入到预设的筛选网络中,将所述第一标注数据集划分为不同置信度所对应的置信度数据集;响应于针对低于预设置信度的所述置信度数据集的标注指令操作,得到挖掘困难样本数据集;对所述挖掘困难样本数据集进行数据增强,得到增强数据集;将所述初始标注数据集、所述第一标注数据集、所述挖掘困难样本数据集和所述增强数据集进行混合,得到所述待标注样本的目标标注数据集。
[0005]可选地,所述将所述初始标注数据集中的待标注样本输入到预先训练完成的预训练语言模型中,输出针对所述待标注样本的第一标注数据集,包括:将预先构建完成的预训练语言模型的第一Prompt作为数据输入到所述预训练语言模型,得到所述待标注样本的第一标注数据集。
[0006]可选地,所述预训练语言模型的第一Prompt由标注任务、第一案例和待标注样本构成。
[0007]可选地,所述第一案例为执行所述标注任务的案例,所述第一案例由已标注文本、
标注任务和命名实体构成,所述已标注文本包含命名实体,所述待标注样本由待标注文本和标注任务构成,所述待标注文本包含命名实体。
[0008]可选地,所述将所述初始标注数据集中的待标注样本输入到预先训练完成的预训练语言模型中,输出针对所述待标注样本的第一标注数据集,包括:将所述预训练语言模型的第一Prompt作为数据输入到所述预训练语言模型,根据所述第一案例,输出所述预训练语言模型的第一Prompt中待标注样本的待标注文本对应的命名实体;获取所述命名实体所对应的标签,对所述命名实体标注所述标签;将已进行标签标注的命名实体和所述待标注文本组成数据对,由多个所述数据对构成所述待标注样本的第一标注数据集。
[0009]可选地,所述命名实体至少包括症状主体、症状主体的修饰、症状描述、症状描述的修饰、检查项名以及检查结果,所述症状描述的修饰至少包括性质、频率、时间、条件以及程度。
[0010]可选地,所述预设的筛选网络包括输入层、嵌入层、长短期记忆层、注意力层、条件随机场层以及分类网络层,其中,所述嵌入层包含置信度,用于将所述第一标注数据集划分为不同置信度所对应的置信度数据集。
[0011]可选地,所述置信度数据集包括高置信度数据集、中置信度数据集和低置信度数据集。
[0012]可选地,所述将所述第一标注数据集输入到预设的筛选网络中,将所述第一标注数据集划分为不同置信度所对应的置信度数据集,包括:若所述第一标注数据集位于所述筛选网络中嵌入层预设的高置信度区域,则将所述第一标注数据集划分为高置信度数据集;若所述第一标注数据集位于所述筛选网络中嵌入层预设的中置信度区域,则将所述第一标注数据集划分为中置信度数据集;若所述第一标注数据集位于所述筛选网络中嵌入层预设的低置信度区域,则将所述第一标注数据集划分为低置信度数据集。
[0013]可选地,所述对所述挖掘困难样本数据集进行数据增强,得到增强数据集,包括:将所述挖掘困难样本数据集中的所有数据输入到预先训练完成的预训练语言模型的第二Prompt,并且,将所述预训练语言模型的第二Prompt作为数据输入到所述预训练语言模型,得到增强数据集。
[0014]可选地,所述对所述挖掘困难样本数据集进行数据增强,得到增强数据集,所述方法还包括:将所述挖掘困难样本数据集中的所有数据输入到预先训练完成的预训练语言模型的第二Prompt,并且,将所述预训练语言模型的第二Prompt作为数据输入到所述预训练语言模型;输出针对所述挖掘困难样本数据集中所有数据的相似句;将所述相似句和所述挖掘困难样本数据集进行混合,得到增强数据集。
[0015]可选地,所述预训练语言模型的第二Prompt由增强任务、第二案例和待增强样本构成。
[0016]可选地,所述第二案例为执行所述增强任务的案例,所述第二案例由已标注文本、增强任务和相似句构成。
[0017]可选地,所述挖掘困难样本数据集包含待增强文本,所述对所述挖掘困难样本数据集进行数据增强,得到增强数据集,包括:将所述挖掘困难样本数据集中的待增强文本输入到预训练语言模型的第二Prompt,并且,将所述预训练语言模型的第二Prompt作为数据输入到所述预训练语言模型;根据所述第二案例,输出所述待增强文本所对应的相似句;将所述相似句和所述挖掘困难样本数据集进行混合,得到增强数据集。
[0018]可选地,在所述对所述挖掘困难样本数据集进行数据增强,得到增强数据集之后,还包括:对所述增强数据集进行多次获取,得到多个增强数据集。
[0019]可选地,在所述将所述初始标注数据集、所述第一标注数据集、所述挖掘困难样本数据集和所述增强数据集进行混合之后,还包括:当获取所述增强数据集的次数小于或等于预设执行次数时,返回执行所述将所述初始标注数据集中的待标注样本输入到预先训练完成的预训练语言模型中,输出针对所述待标注样本的第一标注数据集的步骤。
[0020]可选地,所述将所述初始标注数据集、所述第一标注数据集、所述挖掘困难样本数据集和所述增强数据集进行混合,得到所述待标注样本的目标标注数据集,包括:将所述初始标注数据集和多次获取的所述第一标注数据集、所述挖掘困难样本数据集以及所述增强数据集进行混合;判断进行混合的所述增强数据集的获取次数,当所述增强数据集的获取次数大于所述预设执行次数时,输出所述待标注样本的目标标注数据集。
[0021]本专利技术实施例还公开了一种文本的标注装置,所述装置包括:初始文本数据集收集模块,用于收集初始文本数据集;初始标注数据集获取模块,用于响应于针对所述初始文本数据集的标注指令操作,得到初始标注数据集;其中,所述初始标注数据集包含待标注样本;第一标注数据集获取模块,用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本的标注方法,其特征在于,包括:收集初始文本数据集;响应于针对所述初始文本数据集的标注指令操作,得到初始标注数据集;其中,所述初始标注数据集包含待标注样本;将所述初始标注数据集中的待标注样本输入到预先训练完成的预训练语言模型中,输出针对所述待标注样本的第一标注数据集;将所述第一标注数据集输入到预设的筛选网络中,将所述第一标注数据集划分为不同置信度所对应的置信度数据集;响应于针对低于预设置信度的所述置信度数据集的标注指令操作,得到挖掘困难样本数据集;对所述挖掘困难样本数据集进行数据增强,得到增强数据集;将所述初始标注数据集、所述第一标注数据集、所述挖掘困难样本数据集和所述增强数据集进行混合,得到所述待标注样本的目标标注数据集。2.根据权利要求1所述的方法,其特征在于,所述将所述初始标注数据集中的待标注样本输入到预先训练完成的预训练语言模型中,输出针对所述待标注样本的第一标注数据集,包括:将预先构建完成的预训练语言模型的第一Prompt作为数据输入到所述预训练语言模型,得到所述待标注样本的第一标注数据集。3.根据权利要求2所述的方法,其特征在于,所述预训练语言模型的第一Prompt由标注任务、第一案例和待标注样本构成。4.根据权利要求3所述的方法,其特征在于,所述第一案例为执行所述标注任务的案例,所述第一案例由已标注文本、标注任务和命名实体构成,所述已标注文本包含命名实体,所述待标注样本由待标注文本和标注任务构成,所述待标注文本包含命名实体。5.根据权利要求4所述的方法,其特征在于,所述将所述初始标注数据集中的待标注样本输入到预先训练完成的预训练语言模型中,输出针对所述待标注样本的第一标注数据集,包括:将所述预训练语言模型的第一Prompt作为数据输入到所述预训练语言模型,根据所述第一案例,输出所述预训练语言模型的第一Prompt中待标注样本的待标注文本对应的命名实体;获取所述命名实体所对应的标签,对所述命名实体标注所述标签;将已进行标签标注的命名实体和所述待标注文本组成数据对,由多个所述数据对构成所述待标注样本的第一标注数据集。6.根据权利要求4所述的方法,其特征在于,所述命名实体至少包括症状主体、症状主体的修饰、症状描述、症状描述的修饰、检查项名以及检查结果,所述症状描述的修饰至少包括性质、频率、时间、条件以及程度。7.根据权利要求1所述的方法,其特征在于,所述预设的筛选网络包括输入层、嵌入层、长短期记忆层、注意力层、条件随机场层以及分类网络层,其中,所述嵌入层包含置信度,用于将所述第一标注数据集划分为不同置信度所对应的置信度数据集。8.根据权利要求1所述的方法,其特征在于,所述置信度数据集包括高置信度数据集、
中置信度数据集和低置信度数据集。9.根据权利要求1所述的方法,其特征在于,所述将所述第一标注数据集输入到预设的筛选网络中,将所述第一标注数据集划分为不同置信度所对应的置信度数据集,包括:若所述第一标注数据集位于所述筛选网络中嵌入层预设的高置信度区域,则将所述第一标注数据集划分为高置信度数据集;若所述第一标注数据集位于所述筛选网络中嵌入层预设的中置信度区域,则将所述第一标注数据集划分为中置信度数据集;若所述第一标注数据集位于所述筛选网络中嵌入层预设的低置信度区域,则将所述第一标注数据集划分为低置信度数据集。10.根据权利要求1所述的方法,其特征在于,所述对所述挖掘困难样本数据集进行数据增强,得到增强数据集,包括:将所述挖掘困难样本数据集中的所有数据输入到预先训练完成的预训练语言模型的第二Prompt,并且,将所述预训练语言模型的第二Prompt作为数据输入到所述预训练语言模型,得到增强数据集。11.根据权利要求10所述的方法,其特征在于,所述对所述挖掘困难样本数据集进行数据增强,得到增强数据集,所述方...

【专利技术属性】
技术研发人员:周镇镇
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1