数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:39292846 阅读:7 留言:0更新日期:2023-11-07 11:00
本申请提供了数据处理方法、装置、设备、及存储介质,可以应用于人工智能、云技术等领域,该方法包括:获取第一训练样本集,第一训练样本集包括多个样本组数据;基于第一样本数据生成样本对照数据;基于样本对照数据与第二样本数据的匹配结果,从第一训练样本集中确定第二训练样本集;基于第二训练样本集包括的样本组数据对待训练模型进行训练,得到实体识别模型,实体识别模型用于对待识别对象中的实体进行识别。采用本申请有利于准确地筛选出纯净样本数据用于训练命名实体识别NER模型,从而使得训练得到的NER模型识别实体可以更准确地识别实体,提升训练效率。提升训练效率。提升训练效率。

【技术实现步骤摘要】
数据处理方法、装置、设备及存储介质


[0001]本申请涉及计算机
,由于涉及数据处理方法、数据处理装置、数据处理设备及计算机可读存储介质。

技术介绍

[0002]命名实体识别(Named Entity Recognition,NER)能够提取文本中的实体标签,在文本搜索、文本推荐、知识图谱构建等领域都起着至关重要的作用,一直是热点研究方向之一。多模态NER在传统的命名实体识别基础上额外引入了图像,图像主要辅助文本,为文本补充语义信息,消除文本中的歧义。
[0003]现有的对多模态NER训练所使用的图文数据是随机从网络上获取的图文数据,这种随机从网络上获取的图文数据存在大量的噪音,很多图文数据中的图像和文字匹配度不高,使用这种图文数据对多模态NER进行训练,会使得训练得到的多模态NER模型不能准确地识别出文本中的实体,训练的效率也低。

技术实现思路

[0004]本申请实施例提供了一种数据处理方法、装置、数据处理设备及存储介质,有利于准确地筛选出纯净样本数据用于训练NER模型,从而使得训练得到的NER模型识别实体可以更准确地识别实体,提升训练效率。
[0005]一方面,本申请实施例提供了一种数据处理方法,所述方法包括:
[0006]获取第一训练样本集,所述第一训练样本集包括多个样本组数据,每个所述样本组数据包括第一样本数据和第二样本数据,所述第二样本数据用于描述所述第一样本数据包括的实体;
[0007]基于所述第一样本数据生成样本对照数据;
[0008]基于所述样本对照数据与所述第二样本数据的匹配结果,从所述第一训练样本集中确定第二训练样本集;
[0009]基于所述第二训练样本集包括的样本组数据对待训练模型进行训练,得到实体识别模型,所述实体识别模型用于对待识别对象中的实体进行识别。
[0010]另一方面,本申请实施例提供了一种数据处理装置,所述装置包括:
[0011]获取单元,用于获取第一训练样本集,所述第一训练样本集包括多个样本组数据,每个所述样本组数据包括第一样本数据和第二样本数据,所述第二样本数据用于描述所述第一样本数据包括的实体;
[0012]所述处理单元,还用于基于所述第一样本数据生成样本对照数据;
[0013]所述处理单元,还用于基于所述样本对照数据与所述第二样本数据的匹配结果,从所述第一训练样本集中确定第二训练样本集;
[0014]所述处理单元,还用于基于所述第二训练样本集包括的样本组数据对待训练模型进行训练,得到实体识别模型,所述实体识别模型用于对待识别对象中的实体进行识别。
[0015]在一种可能的实施例中,所述第一样本数据包括文本,所述第二样本数据包括原始图像,所述样本对照数据包括对照图像。
[0016]在一种可能的实施例中,所述处理单元,还用于对所述文本进行编码,得到文本编码;
[0017]所述处理单元,还用于将所述文本编码映射到对应的图像编码,得到映射后的图像编码,所述映射后的图像编码包括所述文本编码中的语义信息;
[0018]所述处理单元,还用于基于所述映射后的图像编码,生成对照图像。
[0019]在一种可能的实施例中,所述处理单元,还用于确定所述对照图像与所述原始图像之间的相似度;
[0020]所述处理单元,还用于根据所述相似度确定所述对照图像与所述原始图像对应的样本组数据的匹配结果;
[0021]所述处理单元,还用于将匹配结果为相似度小于预设相似度阈值的样本组数据从所述第一训练样本集中删除,得到第二训练样本集。
[0022]在一种可能的实施例中,所述处理单元,还用于对所述第二训练样本集中样本组数据包括的原始图像进行特征提取,得到目标图像特征;
[0023]所述处理单元,还用于对所述第二训练样本集中样本组数据包括的文本进行特征提取,得到目标文本特征;
[0024]所述处理单元,还用于基于所述目标图像特征和所述目标文本特征对所述待训练模型进行训练,得到实体识别模型。
[0025]在一种可能的实施例中,所述处理单元,还用于对所述目标图像特征与所述目标文本特征进行特征融合处理,得到融合特征;
[0026]所述处理单元,还用于基于所述融合特征对所述待训练模型进行训练,得到实体识别模型。
[0027]在一种可能的实施例中,所述处理单元,还用于调用所述待训练模型对所述融合特征进行处理,得到所述文本包括的各个实体的预测标签;
[0028]所述处理单元,还用于基于所述文本中各个实体的参考标签以及预测标签确定差异数据;
[0029]所述处理单元,还用于基于所述差异数据对所述待训练模型的模型参数进行调整,得到实体识别模型。
[0030]在一种可能的实施例中,所述获取单元,还用于获取第一视频包括的多个视频画面数据,每个所述视频画面数据包括视频图像以及视频文本;
[0031]所述处理单元,还用于将所述视频图像和所述视频文本输入所述实体识别模型,得到所述视频文本中的实体;
[0032]所述处理单元,还用于基于所述视频文本中的实体,从所述第一视频中确定至少一个第二视频,每个所述第二视频中的任意两个视频文本之间的相似度大于预设相似度阈值。
[0033]再一方面,本申请实施例提供了一种数据处理设备,该数据处理设备包括:处理器、存储器以及网络接口;处理器与存储器、网络接口相连,其中,网络接口用于提供网络通信功能,存储器用于存储程序代码,处理器用于调用程序代码,以执行本申请实施例中的数
据处理方法。
[0034]相应地,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行本申请实施例中的数据处理方法。
[0035]相应地,本申请实施例还提供了一种计算机程序,所述计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中,业务访问的控制设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述业务访问的控制设备执行本申请实施例提供的数据处理方法。
[0036]本申请通过基于第一样本数据生成的对照数据和第二样本数据,从第一训练样本集中确定出第二训练样本集,使得确定出的第二训练样本集中样本组数据都是纯净的样本数据,也就是第二训练样本集中的任一样本数据的第一样本数据和第二样本数据都是匹配的。由于第二样本数据集中样本组数据都是纯净的样本数据,所以使用第二训练样本集可以更加高效地对待训练模型进行训练,并且训练得到的实体识别模型在对待识别对象中的实体进行识别时也更加准确。
附图说明
[0037]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取第一训练样本集,所述第一训练样本集包括多个样本组数据,每个所述样本组数据包括第一样本数据和第二样本数据,所述第二样本数据用于描述所述第一样本数据包括的实体;基于所述第一样本数据生成样本对照数据;基于所述样本对照数据与所述第二样本数据的匹配结果,从所述第一训练样本集中确定第二训练样本集;基于所述第二训练样本集包括的样本组数据对待训练模型进行训练,得到实体识别模型,所述实体识别模型用于对待识别对象中的实体进行识别。2.根据权利要求1所述的方法,其特征在于,所述第一样本数据包括文本,所述第二样本数据包括原始图像,所述样本对照数据包括对照图像。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一样本数据生成样本对照数据,包括:对所述文本进行编码,得到文本编码;将所述文本编码映射到对应的图像编码,得到映射后的图像编码,所述映射后的图像编码包括所述文本编码中的语义信息;基于所述映射后的图像编码,生成对照图像。4.根据权利要求2所述的方法,其特征在于,所述基于所述样本对照数据与所述第二样本数据的匹配结果,从所述第一训练样本集中确定第二训练样本集,包括:确定所述对照图像与所述原始图像之间的相似度;根据所述相似度确定所述对照图像与所述原始图像对应的样本组数据的匹配结果;将匹配结果为相似度小于预设相似度阈值的样本组数据从所述第一训练样本集中删除,得到第二训练样本集。5.根据权利要求2

4中任意一项所述的方法,其特征在于,所述基于所述第二训练样本集包括的样本组数据对待训练模型进行训练,得到实体识别模型,包括:对所述第二训练样本集中样本组数据包括的原始图像进行特征提取,得到目标图像特征;对所述第二训练样本集中样本组数据包括的文本进行特征提取,得到目标文本特征;基于所述目标图像特征和所述目标文本特征对所述待训练模型进行训练,得到实体识别模型。6.根据权利要求5所述的方法,其特征在于,所述基于所述目标图像特征和所述目标文本特征对所述待训练模型进行训练,得到实体识别模型,包括:对所述目标图像特征与所述目标文本特征进行特征融合处理,得到融合特征;基于所述融合特征对所述待训练模型进行训练,得到实体识别模型。7.根据权利要求1所述的方法,其特征在于...

【专利技术属性】
技术研发人员:刘烨
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1