【技术实现步骤摘要】
训练数据生成方法、装置、设备及存储介质
[0001]本申请涉及人工智能
,尤其涉及一种训练数据生成方法、装置、计算机设备及存储介质。
技术介绍
[0002]自然语言处理是为了让计算机理解人类的语言,从而更好地实现人与计算之间的交互(如语音助手、消息自动回复、翻译软件等应用与人的交互)。自然语言处理通常包括分词、词性标注、命名训练数据生成和语法分析。命名训练数据生成(Named Entity Recognition,简称NER)是自然语言处理(Natural Language Processing,简称NLP)的一个重要组成部分。命名训练数据生成是指识别文本中具有特定意义的事物名称或者符号的过程,命名实体主要包括人名、地名、机构名、日期、专有名词等。
[0003]现有技术中,实体识别模型所使用应用场景多对应的语料库作为模型训练数据,但该模型训练数据对实体识别模型的训练方式较为单一,从而导致训练出的实体识别模型在下游任务时,所识别结果准确率不足。
技术实现思路
[0004]本申请提供一种训练数据生成 ...
【技术保护点】
【技术特征摘要】
1.一种训练数据生成方法,其特征在于,包括:获取目标应用场景对应的待处理图文数据,所述待处理图文数据包括待处理图像和待处理文本;采用所述目标应用场景对应的目标图像处理模型,对所述待处理图像进行图像特征提取,获取所述待处理图像特征向量;采用所述目标应用场景对应的目标语言处理模型,对所述待处理文本进行文本特征提取,获取所述待处理文本特征向量;对所述待处理图像特征向量和所述待处理文本特征向量进行特征融合处理,获取所述待处理图文数据对应的融合特征向量;根据所述待处理图文数据和所述融合特征向量,获取模型训练数据。2.如权利要求1所述的训练数据生成方法,其特征在于,所述对所述待处理图像特征向量和所述待处理文本特征向量进行特征融合处理,获取所述待处理图文数据对应的融合特征向量,包括:对所述待处理图像特征向量和所述待处理文本特征向量进行乘积运算,获取乘积特征向量;对所述待处理图像特征向量和所述待处理文本特征向量进行差值运算,获取差值特征向量;对所述待处理图像特征向量、所述待处理文本特征向量、所述乘积特征向量和所述差值特征向量进行拼接处理,获取所述待处理图像特征向量和所述待处理文本特征向量对应的所述融合特征向量。3.如权利要求1所述的训练数据生成方法,其特征在于,在所述获取待处理图文数据之前,所述训练数据生成方法还包括:从所述目标应用场景对应的应用场景图像库中,获取至少两个第一训练图像;对所述第一训练图像进行数据增强处理,获取第二训练图像;对所述第一训练图像和所述第二训练图像进行图像特征提取,获取第一图像特征向量和第二图像特征向量;将所述第一图像特征向量和所述第二图像特征向量输入图像处理模型,获取所述目标应用场景对应的目标图像处理模型。4.如权利要求3所述的训练数据生成方法,其特征在于,所述对所述第一训练图像和所述第二训练图像进行特征提取处理,获取第一图像特征向量和第二图像特征向量,包括:对所述第一训练图像和所述第二训练图像进行图像特征提取,获取第一原始图像向量和第二原始图像向量;对所述第一原始图像向量和所述第二原始图像向量进行非线性变换处理,获取所述第一图像特征向量和所述第二图像特征向量。5.如权利要求1所述的训练数据生成方法,其特征在于,在所述获取待处理图文数据,所述待处理图文数据包括待处理图像和待处理文本之前,所述训练数据生成方法还包括:从所述目标应用场景对应的应用场景语料库中,获取至少两个第一训练文本;对所...
【专利技术属性】
技术研发人员:司世景,王健宗,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。