数据提取方法、系统、设备以及计算机可读存储介质技术方案

技术编号:27469439 阅读:13 留言:0更新日期:2021-03-02 17:33
本申请公开了一种数据提取方法、系统、设备以及计算机可读存储介质,方法包括:利用自编码器对目标数据进行无监督学习,得到第一目标模型,所述目标数据为需要通过运算以提取无标记数据的数据;从所述目标数据中提取第一目标已标记数据,基于所述第一目标模型确定所述第一目标已标记数据的类型;从所述目标数据中提取第一目标数据,所述第一目标数据为基于所述第一模型提取出的与所述第一目标已标记数据类型匹配的数据;当所述第一目标数据的维度为目标维度时,确定所述第一目标数据为需要提取的数据。解决了无法从无标记数据中提取无标记数据的技术问题,提高了对无标记数据提取的准确性。准确性。准确性。

【技术实现步骤摘要】
数据提取方法、系统、设备以及计算机可读存储介质


[0001]本申请涉及大数据
,尤其涉及一种数据提取方法、系统、设备以及计算机可读存储介质。

技术介绍

[0002]近年来,随着互联网、物联网、5G、大数据等领域的快速发展,各种各样的数据给人们生活带来了便利。如何对采集的数据进行分析处理,以提取需要的信息,是数据处理的重中之重。在针对不同领域采集到的数据进行分析处理时,可采用统计学习、机器学习、深度学习等算法。算法处理要与领域数据匹配,如有监督学习在已经标记好的数据分类、回归、预测领域的广泛应用。
[0003]基于已标记数据的处理应用非常广泛而且成熟。然而,在现实生活中存在着大量未标记的数据,如何有效从未标记的数据中提取与少量已标记数据类型相同的数据,进而形成可利用的信息,已经成为了现今数据分析的关键课题。

技术实现思路

[0004]本申请实施例通过提供一种数据提取方法、系统、设备以及计算机可读存储介质,旨在解决在大量无标记数据中提取类型与已知数据类型一致的目标数据,进而进行数据分析的问题。
[0005]为实现上述目的,本申请一方面提供一种数据提取方法,包括:
[0006]利用自编码器对目标数据进行无监督学习,得到第一目标模型,所述目标数据为需要通过运算以提取无标记数据的数据.;
[0007]从所述目标数据中提取第一目标已标记数据,基于所述第一目标模型确定所述第一目标已标记数据的类型;
[0008]从所述目标数据中提取第一目标数据,所述第一目标数据为基于所述第一模型提取出的与所述第一目标已标记数据类型匹配的数据;
[0009]当所述第一目标数据的维度为目标维度时,确定所述第一目标数据为需要提取的数据。
[0010]可选地,所述从所述目标数据中提取第一目标数据的步骤之后,包括:
[0011]获取所述第一目标数据的维度;
[0012]当所述第一目标数据的维度大于所述目标维度时,根据所述第一目标数据和所述第一目标已标记数据确定需要提取的数据。
[0013]可选地,所述根据所述第一目标数据和所述第一目标已标记数据确定需要提取的数据的步骤,包括:
[0014]利用自编码器对所述第一目标数据进行无监督学习,得到第二目标模型,所述第二目标模型的维度低于第一目标模型的维度;
[0015]将所述第一目标已标记数据作为第二目标已标记数据;
[0016]基于所述第二目标模型确定所述第二目标已标记数据的类型;
[0017]从所述第一目标数据中提取第二目标数据,所述第二目标数据基于所述第二模型提取出的与所述第二目标已标记数据类型匹配的数据;
[0018]当所述第二目标数据的维度为目标维度时,确定所述第二目标数据为需要提取的数据。
[0019]可选地,所述从所述第一目标数据中提取第二目标数据的步骤之后,包括:
[0020]当所述第二目标数据的维度大于目标维度时,至少执行1次以下步骤1-5,直至获取到维度为目标维度的第N目标数据:
[0021]步骤1,利用自编码器对第N-1目标数据进行无监督学习,得到第N目标模型,所述第N目标模型的维度低于第N-1目标模型的维度;
[0022]步骤2,将第N-1目标已标记数据作为第N目标已标记数据;
[0023]步骤3,基于所述第N目标模型确定第N目标已标记数据的类型;
[0024]步骤4,从所述第N-1目标数据中提取第N目标数据,所述第N目标数据基于所述第N模型提取出的与所述第N-1目标已标记数据类型匹配的数据;
[0025]步骤5,获取所述第N目标数据的维度,在所述第N数据的维度为目标维度时,确定所述第N目标数据为需要提取的数据。
[0026]可选地,所述利用自编码器对目标数据进行无监督学习,得到目标模型的步骤,包括:
[0027]获取目标数据的维度,利用自编码器神经网络,以所述维度作为输入和输出的节点个数,设置中间节点数小于输入或输出节点个数,得到自编码器模型;
[0028]将所述目标数据代入所述自编码器模型进行训练,得到所述第一目标模型。
[0029]可选地,所述将所述目标数据代入所述自编码器模型进行训练,得到所述目标模型的步骤,包括:
[0030]根据所述目标数据的特性设定目标损失函数;
[0031]根据所述目标损失函数得到所述第一目标模型。
[0032]可选地,所述从所述已标记数据中提取目标已标记数据的类型步骤,包括:
[0033]从所述已标记数据中提取符合目标类型提取结果的已标记数据类型作为目标类型数据。
[0034]此外,本申请还提供一种数据提取系统,所述数据提取系统包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的数据提取程序,所述数据提取程序被所述处理器执行时实现如权利要求1-7任一项数据提取方法的步骤。
[0035]此外,本申请还提供一种数据提取设备,所述数据提取设备包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的数据提取程序,所述数据提取程序被所述处理器执行时实现如上任一项数据提取方法的步骤。
[0036]此外,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有项数据提取程序,所述项数据提取程序被处理器执行时实现如上中任一项数据提取的步骤。
[0037]在本实施例中,当目标数据存在大量的无标记数据时,使用人工的方式对大量无标记数据进行一一提取,需要耗费大量的人力、时间。在本申请中,通过将含有大量无标记
数据的目标数据通过自编码器训练学习,得到对目标数据第一次降维后的第一目标模型,进而根据第一目标模型确定第一目标已标记数据的类型,进而基于第一目标模型从目标数据中确定与第一目标已标记数据类型匹配的数据(第一目标数据)。获取第一目标数据的维度,当第一目标数据的维度为目标维度时即可确认第一目标数据为从目标数据中需要提取的数据。以此实现了根据已知少量已标记数据即可实现提取目标数据中包含的与已标记数据匹配的无标记数据。不需要通过人工进行一一分析,提高了对无标记数据提取的效率。
附图说明
[0038]图1为本申请实施例方案涉及的硬件运行环境的终端结构示意图;
[0039]图2为本申请数据提取方法一实施例的流程示意图;
[0040]图3为本申请数据提取方法又一实施例的流程示意图;
[0041]图4为本申请数据提取方法实施步骤的流程示意图。
[0042]本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0043]应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
[0044]本申请实施例的主要解决方案是:利用自编码器对目标数据进行无监督学习,得到第一目标模型,所述目标数据为需要通过运算以提取无标记数据的数据。将已知的已标记数据作为第一目标已标记数据,基于所述第一目标模型确定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据提取方法,其特征在于,所述数据提取方法包括:利用自编码器对目标数据进行无监督学习,得到第一目标模型,所述目标数据为需要通过运算以提取无标记数据的数据.;从所述目标数据中提取第一目标已标记数据,基于所述第一目标模型确定所述第一目标已标记数据的类型;从所述目标数据中提取第一目标数据,所述第一目标数据为基于所述第一模型提取出的与所述第一目标已标记数据类型匹配的数据;当所述第一目标数据的维度为目标维度时,确定所述第一目标数据为需要提取的数据。2.如权利要求1所述的数据提取方法,其特征在于,所述从所述目标数据中提取第一目标数据的步骤之后,包括:获取所述第一目标数据的维度;当所述第一目标数据的维度大于所述目标维度时,根据所述第一目标数据和所述第一目标已标记数据确定需要提取的数据。3.如权利要求2所述的数据提取方法,其特征在于,所述根据所述第一目标数据和所述第一目标已标记数据确定需要提取的数据的步骤,包括:利用自编码器对所述第一目标数据进行无监督学习,得到第二目标模型,所述第二目标模型的维度低于第一目标模型的维度;将所述第一目标已标记数据作为第二目标已标记数据;基于所述第二目标模型确定所述第二目标已标记数据的类型;从所述第一目标数据中提取第二目标数据,所述第二目标数据基于所述第二模型提取出的与所述第二目标已标记数据类型匹配的数据;当所述第二目标数据的维度为目标维度时,确定所述第二目标数据为需要提取的数据。4.如权利要求3所述的数据提取方法,其特征在于,所述从所述第一目标数据中提取第二目标数据的步骤之后,包括:当所述第二目标数据的维度大于目标维度时,至少执行1次以下步骤1-5,直至获取到维度为目标维度的第N目标数据:步骤1,利用自编码器对第N-1目标数据进行无监督学习,得到第N目标模型,所述第N目标模型的维度低于第N-1目标模型的维度;步骤2,将第N-1目标已标记数据作为第N目标已标记...

【专利技术属性】
技术研发人员:徐高峰张星
申请(专利权)人:南京中兴力维软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1