数据处理方法、装置、可读存储介质及电子设备制造方法及图纸

技术编号:36745874 阅读:10 留言:0更新日期:2023-03-04 10:28
本公开涉及一种数据处理方法、装置、可读存储介质及电子设备,该方法包括:获取基于不同设计规则的多个队列数据;将多个队列数据进行归一化处理后存入共享数据库中;获取用户的输入数据,及用户选择的检索模式;检索模式包括单模态检索模式和多模态检索模式;根据输入数据和检索模式从共享数据库中筛选检索结果。通过将各个研究团队基于不同设计规则得到的多个队列数据进行归一化处理,去除多个队列数据中的重复数据后存入共享数据库中,从而实现了不同队列数据的交叉融合,便于用户后期通过单模态检索模式或多模态检索模式对多个队列数据进行检索、利用。利用。利用。

【技术实现步骤摘要】
数据处理方法、装置、可读存储介质及电子设备


[0001]本公开涉及计算机
,具体地,涉及一种数据处理方法、装置、可读存储介质及电子设备。

技术介绍

[0002]大型人群队列研究是解决目前医学和健康重大问题的有效方法之一,是医学逐步走向精准,提高效果的必经之路。人群队列研究通过对特定人群进行随访和纵向观察,评估暴露和终点的关系。即使研究同一临床问题,不同团队开展的人群队列研究从设计实施、变量定义、数据收集到整理等各个阶段的差异性,导致不同临床队列数据之间存在异质性,阻碍了数据的整合与共享。目前,业内各类专病人群队列研究与建设已取得重大进展,队列间融合交叉研究需求广泛,队列数据是高价值的医学科研资料,充分挖掘、共享利用队列数据等方面还存在诸多科学问题,如多源多模态队列数据难以汇聚融合、利用率低、检索困难等问题。

技术实现思路

[0003]本公开的目的是提供一种数据处理方法、装置、电子设备及可读存储介质,用以解决多源多模态队列数据难以汇聚融合、利用率低、检索困难等问题。
[0004]根据本公开实施例的第一方面,提供一种数据处理方法,包括:获取基于不同设计规则的多个队列数据;将所述多个队列数据进行归一化处理后存入共享数据库中;获取用户的输入数据,及用户选择的检索模式;所述检索模式包括单模态检索模式和多模态检索模式;根据所述输入数据和所述检索模式从所述共享数据库中筛选检索结果。
[0005]可选地,所述将所述多个队列数据进行归一化处理后存入共享数据库中,包括:基于预先确定的归一化标签对所述多个队列数据进行归一化处理,去除重复数据;将去除所述重复数据后的所述多个队列数据映射为单模态向量和/或多模态向量;将所述多个队列数据的相关属性存入所述共享数据库中;所述多个队列数据的相关属性包括:队列标识、单模态向量、单模态向量类型、多模态向量、归一化标签、文本描述、图像地址中的至少一个。
[0006]可选地,所述输入数据包括输入文本和输入图像,所述根据所述输入数据和所述检索模式从所述共享数据库中筛选检索结果,包括:在所述检索模式为所述单模态检索模式的情况下,从所述共享数据库中筛选与所述输入文本语义相同或相近的文本作为所述检索结果,或筛选与所述输入图像语义相同或相近的图像作为所述检索结果;或在所述检索模式为所述多模态检索模式的情况下,从所述共享数据库中筛选与所述输入数据语义相同或相近的文本和/或图像作为所述检索结果。
[0007]可选地,所述从所述共享数据库中筛选与所述输入数据语义相同或相近的文本和/或图像作为所述检索结果,包括:通过多模态检索模型计算所述输入数据与所述共享数据库中的数据的相似度;按照所述相似度的大小将所述共享数据库中的数据进行降序排列,将排序在前面的预定数量个所述数据作为所述检索结果。
[0008]可选地,所述多模态检索模型的训练方法包括:获取多个样本数据对;所述样本数据对包含具有相同所述归一化标签的文本和图像;对于所述多个样本数据对中的每一个样本数据对:通过卷积神经网络获取所述样本数据对中的图像的第一向量表示,通过Bert模型获取所述样本数据对中的文本的第二向量表示;通过多层全连接层分别提取所述第一向量表示的第一特征,和所述第二向量表示的第二特征;通过所述多个样本数据对的所述第一特征与所述第二特征的相同所述归一化标签得到损失函数;通过所述损失函数训练预训练模型得到所述多模态检索模型。
[0009]可选地,所述损失函数的计算公式包括:
[0010][0011]其中,Loss为所述损失函数,n为所述样本数据对的数量,P为多模态向量投影矩阵,U为所述样本数据对中的图像的表示矩阵,V为所述样本数据对中的文本的表示矩阵,Y为所述归一化标签的标签矩阵,||
·
||
F
为求范数操作。
[0012]根据本公开实施例的第二方面,提供一种数据处理装置,包括:获取模块,用于获取基于不同设计规则的多个队列数据;处理模块,用于将所述多个队列数据进行归一化处理后存入共享数据库中;所述获取模块,还用于获取用户的输入数据,及用户选择的检索模式;所述检索模式包括单模态检索模式和多模态检索模式;检索模块,用于根据所述输入数据和所述检索模式从所述共享数据库中筛选检索结果。
[0013]可选地,所述处理模块,还用于基于预先确定的归一化标签对所述多个队列数据进行归一化处理,去除重复数据;将去除所述重复数据后的所述多个队列数据映射为单模态向量和/或多模态向量;将所述多个队列数据的相关属性存入所述共享数据库中;所述多个队列数据的相关属性包括:队列标识、单模态向量、单模态向量类型、多模态向量、归一化标签、文本描述、图像地址中的至少一个。
[0014]根据本公开实施例的第三方面,提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现前述的数据处理方法的步骤。
[0015]根据本公开实施例的第四方面,提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现前述的数据处理方法的步骤。
[0016]本公开的实施例提供的技术方案可以包括以下有益效果:能够获取基于不同设计规则的多个队列数据;将多个队列数据进行归一化处理后存入共享数据库中;获取用户的输入数据,及用户选择的检索模式;检索模式包括单模态检索模式和多模态检索模式;根据输入数据和检索模式从共享数据库中筛选检索结果。通过将各个研究团队基于不同设计规则得到的多个队列数据进行归一化处理,去除多个队列数据中的重复数据后存入共享数据库中,从而实现了不同队列数据的交叉融合,便于用户后期通过单模态检索模式或多模态检索模式对多个队列数据进行检索、利用。
[0017]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0018]附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
[0019]图1是本公开示例性实施例示出的计算机系统的结构示意图。
[0020]图2是本公开示例性实施例示出的一种数据处理方法的流程图。
[0021]图3是本公开示例性实施例示出的一种多模态数据存储的示意图。
[0022]图4是本公开示例性实施例示出的一种映射单模态向量的示意图。
[0023]图5是本公开示例性实施例示出的一种映射多模态向量的示意图。
[0024]图6是本公开示例性实施例示出的一种数据处理装置框图。
[0025]图7是本公开示例性实施例示出的一种电子设备的框图。
[0026]图8是本公开示例性实施例示出的另一种电子设备的框图。
[0027]附图标记说明
[0028]120

终端;140

服务器;20

数据处理装置;201

获取模块;202<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取基于不同设计规则的多个队列数据;将所述多个队列数据进行归一化处理后存入共享数据库中;获取用户的输入数据,及用户选择的检索模式;所述检索模式包括单模态检索模式和多模态检索模式;根据所述输入数据和所述检索模式从所述共享数据库中筛选检索结果。2.根据权利要求1所述的方法,其特征在于,所述将所述多个队列数据进行归一化处理后存入共享数据库中,包括:基于预先确定的归一化标签对所述多个队列数据进行归一化处理,去除重复数据;将去除所述重复数据后的所述多个队列数据映射为单模态向量和/或多模态向量;将所述多个队列数据的相关属性存入所述共享数据库中;所述多个队列数据的相关属性包括:队列标识、单模态向量、单模态向量类型、多模态向量、归一化标签、文本描述、图像地址中的至少一个。3.根据权利要求1所述的方法,其特征在于,所述输入数据包括输入文本和输入图像,所述根据所述输入数据和所述检索模式从所述共享数据库中筛选检索结果,包括:在所述检索模式为所述单模态检索模式的情况下,从所述共享数据库中筛选与所述输入文本语义相同或相近的文本作为所述检索结果,或筛选与所述输入图像语义相同或相近的图像作为所述检索结果;或在所述检索模式为所述多模态检索模式的情况下,从所述共享数据库中筛选与所述输入数据语义相同或相近的文本和/或图像作为所述检索结果。4.根据权利要求3所述的方法,其特征在于,所述从所述共享数据库中筛选与所述输入数据语义相同或相近的文本和/或图像作为所述检索结果,包括:通过多模态检索模型计算所述输入数据与所述共享数据库中的数据的相似度;按照所述相似度的大小将所述共享数据库中的数据进行降序排列,将排序在前面的预定数量个所述数据作为所述检索结果。5.根据权利要求4所述的方法,其特征在于,所述多模态检索模型的训练方法包括:获取多个样本数据对;所述样本数据对包含具有相同所述归一化标签的文本和图像;对于所述多个样本数据对中的每一个样本数据对:通过卷积神经网络获取所述样本数据对中的图像的第一向量表示...

【专利技术属性】
技术研发人员:孙小婉赵耕弘蔡巍张霞
申请(专利权)人:沈阳东软智能医疗科技研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1