一种文本的标注方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：36468561 阅读：12 留言：0更新日期：2023-01-25 23:10

本发明专利技术实施例提供了一种文本的标注方法、装置、电子设备及可读存储介质，所述方法包括：收集初始文本数据集；响应于针对初始文本数据集的标注指令操作，得到初始标注数据集；将初始标注数据集中的待标注样本输入到预先训练完成的预训练语言模型中，输出第一标注数据集；将第一标注数据集输入到预设的筛选网络，将第一标注数据集划分为不同置信度所对应的置信度数据集；响应于针对低于预设置信度的置信度数据集的标注指令操作，得到挖掘困难样本数据集；对挖掘困难样本数据集进行数据增强，得到增强数据集；将初始标注数据集、第一标注数据集、挖掘困难样本数据集和增强数据集混合，得到目标标注数据集。得到目标标注数据集。得到目标标注数据集。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本的标注方法、装置、电子设备及可读存储介质

[0001]本专利技术实施例涉及人工智能
，特别是涉及一种文本的标注方法、一种文本的标注装置、一种电子设备以及一种计算机可读存储介质。

技术介绍

[0002]在现有技术中，大规模预训练语言模型有着广泛的通用基础知识，在自然语言对话、闲聊、开放域问答、阅读理解等方面有着不言而喻的优势，但是大规模预训练语言模型也存在不足，一方面，在不同行业领域的专业知识上，技术比较欠缺，因而在实际项目中有一定的困难；另一方面，因大规模预训练语言模型的参数量巨大，因而推理时间较长，无法满足高频并发需求。

技术实现思路

[0003]本专利技术实施例是提供一种文本的标注方法、装置、电子设备以及计算机可读存储介质，以解决或部分解决目前使用预训练语言模型在对不同行业领域的专业知识上进行文本文件标注的方法存在技术欠缺、效率较低且耗资耗时巨大，无法满足高频并发需求的问题。
[0004]本专利技术实施例公开了一种文本的标注方法，所述方法包括：收集初始文本数据集；响应于针对所述初始文本数据集的标注指令操作，得到初始标注数据集；其中，所述初始标注数据集包含待标注样本；将所述初始标注数据集中的待标注样本输入到预先训练完成的预训练语言模型中，输出针对所述待标注样本的第一标注数据集；将所述第一标注数据集输入到预设的筛选网络中，将所述第一标注数据集划分为不同置信度所对应的置信度数据集；响应于针对低于预设置信度的所述置信度数据集的标注指令操作，得到挖掘困难样本数据集；对所述挖掘困难样本数...

【技术保护点】

【技术特征摘要】
1.一种文本的标注方法，其特征在于，包括：收集初始文本数据集；响应于针对所述初始文本数据集的标注指令操作，得到初始标注数据集；其中，所述初始标注数据集包含待标注样本；将所述初始标注数据集中的待标注样本输入到预先训练完成的预训练语言模型中，输出针对所述待标注样本的第一标注数据集；将所述第一标注数据集输入到预设的筛选网络中，将所述第一标注数据集划分为不同置信度所对应的置信度数据集；响应于针对低于预设置信度的所述置信度数据集的标注指令操作，得到挖掘困难样本数据集；对所述挖掘困难样本数据集进行数据增强，得到增强数据集；将所述初始标注数据集、所述第一标注数据集、所述挖掘困难样本数据集和所述增强数据集进行混合，得到所述待标注样本的目标标注数据集。2.根据权利要求1所述的方法，其特征在于，所述将所述初始标注数据集中的待标注样本输入到预先训练完成的预训练语言模型中，输出针对所述待标注样本的第一标注数据集，包括：将预先构建完成的预训练语言模型的第一Prompt作为数据输入到所述预训练语言模型，得到所述待标注样本的第一标注数据集。3.根据权利要求2所述的方法，其特征在于，所述预训练语言模型的第一Prompt由标注任务、第一案例和待标注样本构成。4.根据权利要求3所述的方法，其特征在于，所述第一案例为执行所述标注任务的案例，所述第一案例由已标注文本、标注任务和命名实体构成，所述已标注文本包含命名实体，所述待标注样本由待标注文本和标注任务构成，所述待标注文本包含命名实体。5.根据权利要求4所述的方法，其特征在于，所述将所述初始标注数据集中的待标注样本输入到预先训练完成的预训练语言模型中，输出针对所述待标注样本的第一标注数据集，包括：将所述预训练语言模型的第一Prompt作为数据输入到所述预训练语言模型，根据所述第一案例，输出所述预训练语言模型的第一Prompt中待标注样本的待标注文本对应的命名实体；获取所述命名实体所对应的标签，对所述命名实体标注所述标签；将已进行标签标注的命名实体和所述待标注文本组成数据对，由多个所述数据对构成所述待标注样本的第一标注数据集。6.根据权利要求4所述的方法，其特征在于，所述命名实体至少包括症状主体、症状主体的修饰、症状描述、症状描述的修饰、检查项名以及检查结果，所述症状描述的修饰至少包括性质、频率、时间、条件以及程度。7.根据权利要求1所述的方法，其特征在于，所述预设的筛选网络包括输入层、嵌入层、长短期记忆层、注意力层、条件随机场层以及分类网络层，其中，所述嵌入层包含置信度，用于将所述第一标注数据集划分为不同置信度所对应的置信度数据集。8.根据权利要求1所述的方法，其特征在于，所述置信度数据集包括高置信度数据集、
中置信度数据集和低置信度数据集。9.根据权利要求1所述的方法，其特征在于，所述将所述第一标注数据集输入到预设的筛选网络中，将所述第一标注数据集划分为不同置信度所对应的置信度数据集，包括：若所述第一标注数据集位于所述筛选网络中嵌入层预设的高置信度区域，则将所述第一标注数据集划分为高置信度数据集；若所述第一标注数据集位于所述筛选网络中嵌入层预设的中置信度区域，则将所述第一标注数据集划分为中置信度数据集；若所述第一标注数据集位于所述筛选网络中嵌入层预设的低置信度区域，则将所述第一标注数据集划分为低置信度数据集。10.根据权利要求1所述的方法，其特征在于，所述对所述挖掘困难样本数据集进行数据增强，得到增强数据集，包括：将所述挖掘困难样本数据集中的所有数据输入到预先训练完成的预训练语言模型的第二Prompt，并且，将所述预训练语言模型的第二Prompt作为数据输入到所述预训练语言模型，得到增强数据集。11.根据权利要求10所述的方法，其特征在于，所述对所述挖掘困难样本数据集进行数据增强，得到增强数据集，所述方...

【专利技术属性】
技术研发人员：周镇镇，
申请(专利权)人：苏州浪潮智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人