训练数据生成方法、装置、设备及存储介质制造方法及图纸

技术编号:34337410 阅读:35 留言:0更新日期:2022-07-31 03:14
本申请涉及人工智能技术领域,本申请公开了一种训练数据生成方法、装置、设备及存储介质,将待处理图文数据分别处理为对应的特征向量,根据目标图像处理模型进行特征提取处理,确定待处理图像对应的待处理图像特征向量,根据目标语言处理模型进行编码处理,确定待处理文本对应的待处理文本特征向量,以准确提取不同模态的特征向量;将待处理图像特征向量和待处理文本特征向量进行特征融合处理,确定待处理图文数据对应的融合特征向量,并根据待处理图文数据及对应的融合特征向量,从而利用待处理图文数据及不同模态的融合特征向量作为模型训练数据,强化模型训练数据的特征,进而提高所训练模型的准确率。高所训练模型的准确率。高所训练模型的准确率。

Training data generation method, device, equipment and storage medium

【技术实现步骤摘要】
训练数据生成方法、装置、设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种训练数据生成方法、装置、计算机设备及存储介质。

技术介绍

[0002]自然语言处理是为了让计算机理解人类的语言,从而更好地实现人与计算之间的交互(如语音助手、消息自动回复、翻译软件等应用与人的交互)。自然语言处理通常包括分词、词性标注、命名训练数据生成和语法分析。命名训练数据生成(Named Entity Recognition,简称NER)是自然语言处理(Natural Language Processing,简称NLP)的一个重要组成部分。命名训练数据生成是指识别文本中具有特定意义的事物名称或者符号的过程,命名实体主要包括人名、地名、机构名、日期、专有名词等。
[0003]现有技术中,实体识别模型所使用应用场景多对应的语料库作为模型训练数据,但该模型训练数据对实体识别模型的训练方式较为单一,从而导致训练出的实体识别模型在下游任务时,所识别结果准确率不足。

技术实现思路

[0004]本申请提供一种训练数据生成方法、装置、计算机设本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种训练数据生成方法,其特征在于,包括:获取目标应用场景对应的待处理图文数据,所述待处理图文数据包括待处理图像和待处理文本;采用所述目标应用场景对应的目标图像处理模型,对所述待处理图像进行图像特征提取,获取所述待处理图像特征向量;采用所述目标应用场景对应的目标语言处理模型,对所述待处理文本进行文本特征提取,获取所述待处理文本特征向量;对所述待处理图像特征向量和所述待处理文本特征向量进行特征融合处理,获取所述待处理图文数据对应的融合特征向量;根据所述待处理图文数据和所述融合特征向量,获取模型训练数据。2.如权利要求1所述的训练数据生成方法,其特征在于,所述对所述待处理图像特征向量和所述待处理文本特征向量进行特征融合处理,获取所述待处理图文数据对应的融合特征向量,包括:对所述待处理图像特征向量和所述待处理文本特征向量进行乘积运算,获取乘积特征向量;对所述待处理图像特征向量和所述待处理文本特征向量进行差值运算,获取差值特征向量;对所述待处理图像特征向量、所述待处理文本特征向量、所述乘积特征向量和所述差值特征向量进行拼接处理,获取所述待处理图像特征向量和所述待处理文本特征向量对应的所述融合特征向量。3.如权利要求1所述的训练数据生成方法,其特征在于,在所述获取待处理图文数据之前,所述训练数据生成方法还包括:从所述目标应用场景对应的应用场景图像库中,获取至少两个第一训练图像;对所述第一训练图像进行数据增强处理,获取第二训练图像;对所述第一训练图像和所述第二训练图像进行图像特征提取,获取第一图像特征向量和第二图像特征向量;将所述第一图像特征向量和所述第二图像特征向量输入图像处理模型,获取所述目标应用场景对应的目标图像处理模型。4.如权利要求3所述的训练数据生成方法,其特征在于,所述对所述第一训练图像和所述第二训练图像进行特征提取处理,获取第一图像特征向量和第二图像特征向量,包括:对所述第一训练图像和所述第二训练图像进行图像特征提取,获取第一原始图像向量和第二原始图像向量;对所述第一原始图像向量和所述第二原始图像向量进行非线性变换处理,获取所述第一图像特征向量和所述第二图像特征向量。5.如权利要求1所述的训练数据生成方法,其特征在于,在所述获取待处理图文数据,所述待处理图文数据包括待处理图像和待处理文本之前,所述训练数据生成方法还包括:从所述目标应用场景对应的应用场景语料库中,获取至少两个第一训练文本;对所...

【专利技术属性】
技术研发人员:司世景王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1