数据构建方法、模型训练方法、装置、设备及介质制造方法及图纸

技术编号:41934512 阅读:17 留言:0更新日期:2024-07-05 14:29
本发明专利技术涉及人工智能技术领域,尤其涉及一种数据构建方法、模型训练方法、装置、设备及介质。将原始文本拆分为长度为N的至少一个实体片段,将每个长度下出现频率满足预设条件的实体片段的集合作为提示词,根据预设的强提示策略和提示词,生成强提示信息,根据预设的结构化策略,对原始文本进行结构化处理,得到结构化文本,将强提示信息、结构化文本与原始文本组合,确定组合结果为样本数据,本发明专利技术中,通过引入额外强提示信息增强关键词提取模型对关键词的感知能力,避免了文本中部分噪声数据对关键词提取模型的干扰,而且通过额外强提示信息可以降低关键词提取模型的学习难度,达到使用少量训练数据,提高实体识别模型的训练效率的目的。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种数据构建方法、模型训练方法、装置、设备及介质


技术介绍

1、随着自然语言处理技术的飞速发展,许多先进的人工智能技术逐步落地,应用于实际生产中。在电话投诉场景中,应用最为广泛的便是关键要素提取(i nformat ionextrat i on)方法。获取电话投诉对话过程中的语音数据,识别该语音数据对应的文本内容,通过机器学习模型从文本内容中抽取关键信息,根据抽取到的关键信息感知客户意图与需求,并针对客户的需要作出回应服务。

2、现有技术中,关键要素提取中,一个比较难的问题就是高度人工定义、不太符合人类文字使用习惯的专有名词,例如人名,地址等信息。在做要素提取过程中严重依赖训练数据,所以命名实体识别模型需要大量的含有专有名词的训练数据,在实际项目中需要标注特定数据和噪声清洗浪费了很多人力物力,降低了实体识别模型的训练效率,因此,当存在少量的专有名词的训练数据时,如何提高实体识别模型的训练效率。


技术实现思路

1、本专利技术与现有技术相比存在的有益效果是:

<本文档来自技高网...

【技术保护点】

1.一种用于模型训练的数据构建方法,其特征在于,所述数据构建方法包括:

2.如权利要求1所述的数据构建方法,其特征在于,所述根据预设的强提示策略和所述提示词,生成强提示信息,包括:

3.如权利要求1所述的数据构建方法,其特征在于,所述根据预设的结构化策略,对所述原始文本进行结构化处理,得到结构化文本,包括:

4.一种模型训练方法,其特征在于,所述模型训练方法包括:

5.如权利要求4所述的模型训练方法,其特征在于,所述获取初始要素提取模型,使用所述初始训练数据对所述初始要素提取模型进行预训练,得到所述初始要素提取模型对应的预训练模型,包括:<...

【技术特征摘要】

1.一种用于模型训练的数据构建方法,其特征在于,所述数据构建方法包括:

2.如权利要求1所述的数据构建方法,其特征在于,所述根据预设的强提示策略和所述提示词,生成强提示信息,包括:

3.如权利要求1所述的数据构建方法,其特征在于,所述根据预设的结构化策略,对所述原始文本进行结构化处理,得到结构化文本,包括:

4.一种模型训练方法,其特征在于,所述模型训练方法包括:

5.如权利要求4所述的模型训练方法,其特征在于,所述获取初始要素提取模型,使用所述初始训练数据对所述初始要素提取模型进行预训练,得到所述初始要素提取模型对应的预训练模型,包括:

6.如权利要求4所述的模型训练方法,其特征在于,所述获取待提取文本,使用所述...

【专利技术属性】
技术研发人员:杨东泉李宏彬余晓填王孝宇
申请(专利权)人:深圳云天励飞技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1