数据构建方法、模型训练方法、装置、设备及介质制造方法及图纸

技术编号：41934512 阅读：17 留言：0更新日期：2024-07-05 14:29

本发明专利技术涉及人工智能技术领域，尤其涉及一种数据构建方法、模型训练方法、装置、设备及介质。将原始文本拆分为长度为N的至少一个实体片段，将每个长度下出现频率满足预设条件的实体片段的集合作为提示词，根据预设的强提示策略和提示词，生成强提示信息，根据预设的结构化策略，对原始文本进行结构化处理，得到结构化文本，将强提示信息、结构化文本与原始文本组合，确定组合结果为样本数据，本发明专利技术中，通过引入额外强提示信息增强关键词提取模型对关键词的感知能力，避免了文本中部分噪声数据对关键词提取模型的干扰，而且通过额外强提示信息可以降低关键词提取模型的学习难度，达到使用少量训练数据，提高实体识别模型的训练效率的目的。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种数据构建方法、模型训练方法、装置、设备及介质。

技术介绍

1、随着自然语言处理技术的飞速发展，许多先进的人工智能技术逐步落地，应用于实际生产中。在电话投诉场景中，应用最为广泛的便是关键要素提取(i nformat ionextrat i on)方法。获取电话投诉对话过程中的语音数据，识别该语音数据对应的文本内容，通过机器学习模型从文本内容中抽取关键信息，根据抽取到的关键信息感知客户意图与需求，并针对客户的需要作出回应服务。

2、现有技术中，关键要素提取中，一个比较难的问题就是高度人工定义、不太符合人类文字使用习惯的专有名词，例如人名，地址等信息。在做要素提取过程中严重依赖训练数据，所以命名实体识别模型需要大量的含有专有名词的训练数据，在实际项目中需要标注特定数据和噪声清洗浪费了很多人力物力，降低了实体识别模型的训练效率，因此，当存在少量的专有名词的训练数据时，如何提高实体识别模型的训练效率。

技术实现思路

1、本专利技术与现有技术相比存在的有益效果是：

<本文档来自技高网...

【技术保护点】

1.一种用于模型训练的数据构建方法，其特征在于，所述数据构建方法包括：

2.如权利要求1所述的数据构建方法，其特征在于，所述根据预设的强提示策略和所述提示词，生成强提示信息,包括：

3.如权利要求1所述的数据构建方法，其特征在于，所述根据预设的结构化策略，对所述原始文本进行结构化处理，得到结构化文本，包括：

4.一种模型训练方法，其特征在于，所述模型训练方法包括：

5.如权利要求4所述的模型训练方法，其特征在于，所述获取初始要素提取模型，使用所述初始训练数据对所述初始要素提取模型进行预训练，得到所述初始要素提取模型对应的预训练模型，包括：<...

【技术特征摘要】

1.一种用于模型训练的数据构建方法，其特征在于，所述数据构建方法包括：

2.如权利要求1所述的数据构建方法，其特征在于，所述根据预设的强提示策略和所述提示词，生成强提示信息,包括：

3.如权利要求1所述的数据构建方法，其特征在于，所述根据预设的结构化策略，对所述原始文本进行结构化处理，得到结构化文本，包括：

4.一种模型训练方法，其特征在于，所述模型训练方法包括：

5.如权利要求4所述的模型训练方法，其特征在于，所述获取初始要素提取模型，使用所述初始训练数据对所述初始要素提取模型进行预训练，得到所述初始要素提取模型对应的预训练模型，包括：

6.如权利要求4所述的模型训练方法，其特征在于，所述获取待提取文本，使用所述...

【专利技术属性】
技术研发人员：杨东泉，李宏彬，余晓填，王孝宇，
申请(专利权)人：深圳云天励飞技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人