数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号：39292846 阅读：7 留言：0更新日期：2023-11-07 11:00

本申请提供了数据处理方法、装置、设备、及存储介质，可以应用于人工智能、云技术等领域，该方法包括：获取第一训练样本集，第一训练样本集包括多个样本组数据；基于第一样本数据生成样本对照数据；基于样本对照数据与第二样本数据的匹配结果，从第一训练样本集中确定第二训练样本集；基于第二训练样本集包括的样本组数据对待训练模型进行训练，得到实体识别模型，实体识别模型用于对待识别对象中的实体进行识别。采用本申请有利于准确地筛选出纯净样本数据用于训练命名实体识别NER模型，从而使得训练得到的NER模型识别实体可以更准确地识别实体，提升训练效率。提升训练效率。提升训练效率。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、设备及存储介质

[0001]本申请涉及计算机
，由于涉及数据处理方法、数据处理装置、数据处理设备及计算机可读存储介质。

技术介绍

[0002]命名实体识别(Named Entity Recognition，NER)能够提取文本中的实体标签，在文本搜索、文本推荐、知识图谱构建等领域都起着至关重要的作用，一直是热点研究方向之一。多模态NER在传统的命名实体识别基础上额外引入了图像，图像主要辅助文本，为文本补充语义信息，消除文本中的歧义。
[0003]现有的对多模态NER训练所使用的图文数据是随机从网络上获取的图文数据，这种随机从网络上获取的图文数据存在大量的噪音，很多图文数据中的图像和文字匹配度不高，使用这种图文数据对多模态NER进行训练，会使得训练得到的多模态NER模型不能准确地识别出文本中的实体，训练的效率也低。

技术实现思路

[0004]本申请实施例提供了一种数据处理方法、装置、数据处理设备及存储介质，有利于准确地筛选出纯净样本数据用于训练NER模型，从而使得训练得到的NER模型识别实体可以更准确地识别实体，提升训练效率。
[0005]一方面，本申请实施例提供了一种数据处理方法，所述方法包括：
[0006]获取第一训练样本集，所述第一训练样本集包括多个样本组数据，每个所述样本组数据包括第一样本数据和第二样本数据，所述第二样本数据用于描述所述第一样本数据包括的实体；
[0007]基于所述第一样本数据生成样本对照数据；
[0008]基于所...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：获取第一训练样本集，所述第一训练样本集包括多个样本组数据，每个所述样本组数据包括第一样本数据和第二样本数据，所述第二样本数据用于描述所述第一样本数据包括的实体；基于所述第一样本数据生成样本对照数据；基于所述样本对照数据与所述第二样本数据的匹配结果，从所述第一训练样本集中确定第二训练样本集；基于所述第二训练样本集包括的样本组数据对待训练模型进行训练，得到实体识别模型，所述实体识别模型用于对待识别对象中的实体进行识别。2.根据权利要求1所述的方法，其特征在于，所述第一样本数据包括文本，所述第二样本数据包括原始图像，所述样本对照数据包括对照图像。3.根据权利要求2所述的方法，其特征在于，所述基于所述第一样本数据生成样本对照数据，包括：对所述文本进行编码，得到文本编码；将所述文本编码映射到对应的图像编码，得到映射后的图像编码，所述映射后的图像编码包括所述文本编码中的语义信息；基于所述映射后的图像编码，生成对照图像。4.根据权利要求2所述的方法，其特征在于，所述基于所述样本对照数据与所述第二样本数据的匹配结果，从所述第一训练样本集中确定第二训练样本集，包括：确定所述对照图像与所述原始图像之间的相似度；根据所述相似度确定所述对照图像与所述原始图像对应的样本组数据的匹配结果；将匹配结果为相似度小于预设相似度阈值的样本组数据从所述第一训练样本集中删除，得到第二训练样本集。5.根据权利要求2
‑
4中任意一项所述的方法，其特征在于，所述基于所述第二训练样本集包括的样本组数据对待训练模型进行训练，得到实体识别模型，包括：对所述第二训练样本集中样本组数据包括的原始图像进行特征提取，得到目标图像特征；对所述第二训练样本集中样本组数据包括的文本进行特征提取，得到目标文本特征；基于所述目标图像特征和所述目标文本特征对所述待训练模型进行训练，得到实体识别模型。6.根据权利要求5所述的方法，其特征在于，所述基于所述目标图像特征和所述目标文本特征对所述待训练模型进行训练，得到实体识别模型，包括：对所述目标图像特征与所述目标文本特征进行特征融合处理，得到融合特征；基于所述融合特征对所述待训练模型进行训练，得到实体识别模型。7.根据权利要求1所述的方法，其特征在于...

【专利技术属性】
技术研发人员：刘烨，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人