一种数据处理的方法和装置制造方法及图纸

技术编号:21093175 阅读:41 留言:0更新日期:2019-05-11 11:19
本发明专利技术公开了一种数据处理的方法和装置,通过将同一分析业务的各种不同数据结构的数据均作为目标来源数据,为各目标来源数据构造用于表示该目标来源数据中各特征元素之间的关联关系的关联矩阵;再将各关联矩阵分别映射到用于保留该分析业务的所有来源数据中各数据结构的数据特征的全量矩阵空间,形成各目标来源数据的全量矩阵;采用该分析业务的指定嵌入式表示方法,对各个目标来源数据的全量矩阵分别进行嵌入式表示,得到各目标来源数据对应的嵌入向量矩阵。这样,既保留不同结构的数据的全部数据特征,又确保各种数据结构的数据对应的嵌入向量矩阵符合统一计算的要求,为后续统一分析作好准备,从而使该分析业务得到全面和准确的分析结果。

A Data Processing Method and Device

【技术实现步骤摘要】
一种数据处理的方法和装置
本专利技术涉及信息处理
,特别是涉及一种数据处理的方法和装置。
技术介绍
在大数据分析领域,在一个分析业务中往往需要综合依据多种不同来源的数据进行分析,从而才能得出分析结果。而不同来源的数据往往具有不同的数据结构。例如,对于精准医疗分析来说,其所需要依据的数据往往包括基因组学的文本数据、医疗影像的图像数据、实验室检查化验结果的结构化数据等。由于数据结构不同的数据往往难以进行统一计算,目前各种不同来源、不同数据结构的数据是各自进行计算分析,所得到的各个分析结果再经过汇总得出最终的分析结果。但是,往往不同来源、不同数据结构的数据之间是存在关联的,若各自进行计算分析则往往会忽略这种关联,从而使得最终的分析结果不够全面、不够准确。例如,在医疗领域中,某些实验室检查化验结果可能会指向某种疾病,但是结合病史则可以确定这些检查化验结果的异常是因为患者正在为另一种疾病服药而导致的。
技术实现思路
本专利技术所要解决的技术问题是,提供一种数据处理的方法和装置,以使得各种不同数据结构的数据经过处理之后符合统一计算的要求,从而避免不同数据结构的数据之间的关联在分析过程中被忽略,本文档来自技高网...

【技术保护点】
1.一种数据处理的方法,其特征在于,包括:获取分析业务的目标来源数据;为所述目标来源数据构造关联矩阵;其中,所述关联矩阵用于表示所述目标来源数据中各特征元素之间的关联关系;将所述目标来源数据的关联矩阵映射到所述分析业务的全量矩阵空间,形成所述目标来源数据的全量矩阵;其中,所述全量矩阵空间用于保留所述分析业务的所有来源数据中各数据结构的数据特征;采用所述分析业务的指定嵌入式表示方法,对所述目标来源数据的全量矩阵进行嵌入式表示,得到所述目标来源数据的嵌入向量矩阵。

【技术特征摘要】
1.一种数据处理的方法,其特征在于,包括:获取分析业务的目标来源数据;为所述目标来源数据构造关联矩阵;其中,所述关联矩阵用于表示所述目标来源数据中各特征元素之间的关联关系;将所述目标来源数据的关联矩阵映射到所述分析业务的全量矩阵空间,形成所述目标来源数据的全量矩阵;其中,所述全量矩阵空间用于保留所述分析业务的所有来源数据中各数据结构的数据特征;采用所述分析业务的指定嵌入式表示方法,对所述目标来源数据的全量矩阵进行嵌入式表示,得到所述目标来源数据的嵌入向量矩阵。2.根据权利要求1所述的方法,其特征在于,所述为所述目标来源数据构造关联矩阵,包括:从所述目标来源数据中提取所述各特征元素;计算所述各特征元素之间的关联度;根据所述各特征元素之间的关联度与关联度阈值之间的大小关系,形成所述目标来源数据的关联矩阵。3.根据权利要求2所述的方法,其特征在于,所述目标来源数据为图像数据,所述各特征元素为所述图像数据中的各图像特征,所述关联度为各图像特征之间的相似度。4.根据权利要求2所述的方法,其特征在于,所述目标来源数据为文本数据,所述各特征元素为所述文本数据中各词语的词向量,所述关联度根据所述各词语之间在同一句子中的同现概率和所述各词语之间的词向量相似度确定。5.根据权利要求2所述的方法,其特征在于,所述目标来源数据为结构化数据,所述各特征元素为所述结构...

【专利技术属性】
技术研发人员:蔡巍崔朝辉赵立军张霞
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1