基于数据特征实现的数据智能采集方法及系统技术方案

技术编号:38201316 阅读:13 留言:0更新日期:2023-07-21 16:43
本发明专利技术涉及数据采集领域,揭露一种基于数据特征实现的数据智能采集方法及系统,该方法包括:根据数据需求检索源数据,计算源数据的数据关联度,根据数据关联度对源数据分类,得到分类数据;分析分类数据的数据属性,根据数据属性,采集分类数据的数据特征;计算数据特征的特征权重,根据特征权重,对数据特征进行特征融合,得到融合特征;对数据需求进行特征表述,得到需求特征,根据需求特征创建数据需求的特征分析模型,利用特征分析模型对融合特征和需求特征进行特征拟合运算,得到拟合值;在拟合值不大于预设值,将融合特征作为数据需求的目标特征;根据目标特征,从源数据中采集数据需求对应的需求数据。本发明专利技术可以提高数据采集的准确率。采集的准确率。采集的准确率。

【技术实现步骤摘要】
基于数据特征实现的数据智能采集方法及系统


[0001]本专利技术涉及数据采集领域,尤其涉及一种基于数据特征实现的数据智能采集方法及系统。

技术介绍

[0002]数据采集是现代社会不可缺少的一部分,其可以帮助用户分析各种现象和趋势,随着数字化时代的到来以及互联网使用频率的攀升,在海量数据中进行数据特征采集提取,能够有效的促进数据的快速识别以及高效利用。
[0003]目前,对于数据的采集一般通过数据采集器采集,按照数据需求设置采集条件,并获取大量的相关数据,然而在使用这种方法采集数据的过程中,由于采集条件的设置,往往会出现设置范围大采集的数据量过大处理起来较为浪费时间,设置范围小获取的数据量较少可能无法获得较多有价值的数据,从而使得采集到的数据不够准确。

技术实现思路

[0004]为了解决上述技术问题,本专利技术提供了一种基于数据特征实现的数据智能采集方法及系统,能够提高提高数据采集的准确率。
[0005]第一方面,本专利技术提供了一种基于数据特征实现的数据智能采集方法,包括:
[0006]获取数据需求,根据所述数据需求检索源数据,计算所述源数据的数据关联度,根据所述数据关联度对所述源数据进行数据分类,得到分类数据;
[0007]分析所述分类数据的数据属性,根据所述数据属性,采集所述分类数据的数据特征;
[0008]计算所述数据特征的特征权重,根据所述特征权重,对所述数据特征进行特征融合,得到融合特征;
[0009]对所述数据需求进行特征表述,得到需求特征,并根据所述需求特征创建所述数据需求的特征分析模型,利用所述特征分析模型对所述融合特征和所述需求特征进行特征拟合运算,得到拟合值;
[0010]判断所述拟合值是否大于预设阈值;
[0011]在所述拟合值大于预设值时,返回对所述数据需求进行特征表述的步骤;
[0012]在所述拟合值不大于所述预设值,将所述融合特征作为所述数据需求的目标特征;
[0013]根据所述目标特征,从所述源数据中采集所述数据需求对应的需求数据。
[0014]在第一方面的一种可能实现方式中,所述根据所述数据需求检索源数据,包括:
[0015]根据所述数据需求,创建所述数据需求对应的需求文本;
[0016]在所述需求文本中构建所述数据需求对应的需求目录;
[0017]在所述需求目录中添加检索代码,以根据所述检索代码检索所述数据需求对应的源数据。
[0018]在第一方面的一种可能实现方式中,所述根据所述数据关联度对所述源数据进行数据分类,得到分类数据,包括:
[0019]根据所述数据关联度为所述源数据添加分类标签;
[0020]创建所述源数据的分类集,根据所述分类标签将所述源数据加载入所述分类集中,得到分类数据。
[0021]在第一方面的一种可能实现方式中,所述根据所述数据属性,采集所述分类数据的数据特征,包括:
[0022]根据所述数据属性将所述分类数据转换为线性数据;
[0023]将所述线性数据进行降维处理,得到降维数据;
[0024]将所述降维数据数据映射到预构建的空间矩阵中,并在所述空间矩阵中利用预设的矩阵算法采集所述分类数据的数据特征。
[0025]在第一方面的一种可能实现方式中,所述根据所述数据属性将所述分类数据转换为线性数据,包括:
[0026]通过所述数据属性查询所述分类数据的数据结构;
[0027]根据所述数据结构查询相对应的线性结构算法;
[0028]根据所述线性结构算法,以通过所述线性结构算法将所述分类数据转换为线性数据。
[0029]在第一方面的一种可能实现方式中,所述计算所述数据特征的特征权重,包括:
[0030]利用下述公式计算所述数据特征的特征权重:
[0031][0032]其中,表示特征权重,表示数据特征的熵熄函数,表示数据特征的熵熄值,m表示数据特征的特征数量,表示权重矩阵,表示第A类数据的第j个数据特征。
[0033]在第一方面的一种可能实现方式中,所述根据所述特征权重,对所述数据特征进行特征融合,得到融合特征,包括:
[0034]利用下述公式对所述数据特征进行特征融合:
[0035][0036]其中,表示融合特征,m表示数据特征的特征数量,表示权重均值,表示第x个数据特征的权重值,表示第y个数据特征的权重值,e表示权重误差值。
[0037]在第一方面的一种可能实现方式中,所述根据所述目标特征,从所述源数据中采集所述数据需求对应的需求数据,包括:
[0038]查询所述源数据的数据库结构;
[0039]根据所述数据库结构,创建所述源数据的索引方式,为所述目标特征添加检索标签;
[0040]根据所述索引方式和所述检索标签,从所述源数据中采集所述数据需求对应的需求数据。
[0041]在第一方面的一种可能实现方式中,所述利用所述特征分析模型对所述融合特征和所述需求特征进行特征拟合运算,得到拟合值,包括:
[0042]利用下述公式对所述融合特征和所述需求特征进行特征拟合运算:
[0043][0044]其中,表示拟合值,m表示拟合计算的次数,表示拟合残差,表示余弦函数,f表示拟合曲线,表示融合特征的第i个特征,表示需求特征的第j个特征。
[0045]第二方面,本专利技术提供了一种基于数据特征实现的数据智能采集系统,所述系统包括:
[0046]数据分类模块,用于获取数据需求,根据所述数据需求检索源数据,计算所述源数据的数据关联度,根据所述数据关联度对所述源数据进行数据分类,得到分类数据;
[0047]特征采集模块,用于分析所述分类数据的数据属性,根据所述数据属性,采集所述分类数据的数据特征;
[0048]特征融合模块,用于计算所述数据特征的特征权重,根据所述特征权重,对所述数据特征进行特征融合,得到融合特征;
[0049]拟合计算模块,用于对所述数据需求进行特征表述,得到需求特征,并根据所述需求特征创建所述数据需求的特征分析模型,利用所述特征分析模型对所述融合特征和所述需求特征进行特征拟合运算,得到拟合值;
[0050]拟合判断模块,用于判断所述拟合值是否大于预设阈值;
[0051]步骤返回模块,用于在所述拟合值大于预设值时,返回对所述数据需求进行特征表述的步骤;
[0052]特征获取模块,用于在所述拟合值不大于所述预设值,将所述融合特征作为所述数据需求的目标特征;
[0053]数据采集模块,用于根据所述目标特征,从所述源数据中采集所述数据需求对应的需求数据。
[0054]与现有技术相比,本方案的技术原理及有益效果在于:
[0055]本方案首先通过所述获取数据需求,根据所述数据需求检索源数据可以获取大量的与需求相关的数据,从而能够从这些大量的数据中的获取所需要的数据如风景类的数据,所述数据需求如某地区的人文历史、风景介绍、科技建设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据特征实现的数据智能采集方法,其特征在于,所述方法包括:获取数据需求,根据所述数据需求检索源数据,计算所述源数据的数据关联度,根据所述数据关联度对所述源数据进行数据分类,得到分类数据,其中,所述计算所述源数据的数据关联度,包括:利用下述公式计算所述源数据的数据关联度:其中,表示数据关联度,表示在源数据b被检索时源数据a的出现概率,表示在源数据a被检索时,源数据b的出现概率,表示源数据a的数据标签,表示源数据b的数据标签,n表示源数据a被检索的次数,m表示源数据b被检索的次数,表示标签函数;分析所述分类数据的数据属性,根据所述数据属性,采集所述分类数据的数据特征;计算所述数据特征的特征权重,根据所述特征权重,对所述数据特征进行特征融合,得到融合特征;对所述数据需求进行特征表述,得到需求特征,并根据所述需求特征创建所述数据需求的特征分析模型,利用所述特征分析模型对所述融合特征和所述需求特征进行特征拟合运算,得到拟合值;判断所述拟合值是否大于预设值;在所述拟合值大于预设值时,返回对所述数据需求进行特征表述的步骤;在所述拟合值不大于所述预设值,将所述融合特征作为所述数据需求的目标特征;根据所述目标特征,从所述源数据中采集所述数据需求对应的需求数据。2.根据权利要求1所述的方法,其特征在于,所述根据所述数据需求检索源数据,包括:根据所述数据需求,创建所述数据需求对应的需求文本;在所述需求文本中构建所述数据需求对应的需求目录;在所述需求目录中添加检索代码,以根据所述检索代码检索所述数据需求对应的源数据。3.根据权利要求1所述的方法,其特征在于,所述根据所述数据关联度对所述源数据进行数据分类,得到分类数据,包括:根据所述数据关联度为所述源数据添加分类标签;创建所述源数据的分类集,根据所述分类标签将所述源数据加载入所述分类集中,得到分类数据。4.根据权利要求1所述的方法,其特征在于,所述根据所述数据属性,采集所述分类数据的数据特征,包括:根据所述数据属性将所述分类数据转换为线性数据;将所述线性数据进行降维处理,得到降维数据;将所述降维数据映射到预构建的空间矩阵中,并在所述空间矩阵中利用预设的矩阵算法采集所述分类数据的数据特征。5.根据权利要求4所述的方法,其特征在于,所述根据所述数据属性将所述分类数据转
换为线性数据,包括:通过所述数据属性查询所述分类数据的数据结构;根据所述数据结构查询相对应的线性结构算法;根据所述线性结构算法,以通过所述线性结构算法将所述分类数据转...

【专利技术属性】
技术研发人员:张煇刘俊龙崔红凯
申请(专利权)人:山西长河科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1