一种基于历史分析的无人智能驱动的数据文件生成方法技术

技术编号:10599390 阅读:144 留言:0更新日期:2014-10-30 13:07
本发明专利技术涉及一种基于历史分析的无人智能驱动的数据文件生成方法,步骤如下:1)使用同构数据生成模拟器生成模拟数据;2)使用XML文件生成器抽取模拟数据,生成XML文件;3)在知识分析数据库中记录抽取模拟数据、生成每个XML文件的生成效率参数;4)将各个数量级数据生成XML文件执行时间最短的生成效率参数作为执行标准,基于执行标准进行实际环境数据抽取并生成XML文件。通过使用同构数据生成模拟器生成模拟数据,使用XML文件生成器进行真实环境数据抽取模拟,然后记录整个过程的执行结果,初步建立知识库,以效率最高的模型为参考标准,初步实现数据抽取的高效率;并使用数据分析挖掘技术,不断完善知识库,逐步提高数据抽取的效率。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及,步骤如下:1)使用同构数据生成模拟器生成模拟数据;2)使用XML文件生成器抽取模拟数据,生成XML文件;3)在知识分析数据库中记录抽取模拟数据、生成每个XML文件的生成效率参数;4)将各个数量级数据生成XML文件执行时间最短的生成效率参数作为执行标准,基于执行标准进行实际环境数据抽取并生成XML文件。通过使用同构数据生成模拟器生成模拟数据,使用XML文件生成器进行真实环境数据抽取模拟,然后记录整个过程的执行结果,初步建立知识库,以效率最高的模型为参考标准,初步实现数据抽取的高效率;并使用数据分析挖掘技术,不断完善知识库,逐步提高数据抽取的效率。【专利说明】
本专利技术涉及一种数据抽取方法,更具体地说,涉及一种基于历史分析的无人智能 驱动的数据文件生成方法。
技术介绍
-般的数据抽取的方式主要分为两种:一种是将需要的数据从数据库中提取然后 通过二进制数据流进行传输然后存储到其他数据库中。另一种是从数据库中提取需要的数 据存储以文本文件的形式存储到硬盘上。 对于从数据库中提取需要的数据存储以文本文件的形式存储到硬盘上这种方法, 其在技术上存在一个缺点:当数据库中有一张数据表A该表每天都海量的新数据写入,并 且数量级不等。如果要将增量的数据同时写入到同一个文本文件对象中,那么这个文本文 件对象的所占用的存储空间就会变得很庞大,对文件的存储效率和文件传输效率都存在一 个制约性,对数据抽取的效率产生了瓶颈。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种在海量新数据写入数据库的情 况下,能够提升海量数据抽取并存储为XML格式文件的效率的基于历史分析的无人智能驱 动的数据文件生成方法。 本专利技术的技术方案如下: -种基于历史分析的无人智能驱动的数据文件生成方法,步骤如下: 1)使用同构数据生成模拟器生成模拟数据; 2 )使用XML文件生成器抽取模拟数据,生成XML文件; 3)在知识分析数据库中记录抽取模拟数据、生成每个XML文件的生成效率参数; 4)将各个数量级数据生成XML文件执行时间最短的生成效率参数作为执行标准, 基于执行标准进行实际环境数据抽取并生成XML文件。 作为优选,步骤4)进一步地,将实际环境数据抽取、生成XML文件的生成效率参数 进行存储积累,等待下一次判断各个数量级数据生成XML文件执行时间最短的生成效率参 数,确定新的执行标准。 作为优选,步骤1)的步骤如下: 1. 1)新增数据源:在模拟数据库中模拟业务数据库生成数据源; 1. 2)新增同构数据表:在步骤1. 1)中新增的数据源下选择要同构的数据表,并进 行同构操作,同构数据表下为新增的数据项信息; 1. 3)生成模拟数据:选择同构数据表下要生成的数据记录数,生成模拟数据操作。 作为优选,步骤2)的步骤如下: 2. 1)连接同构数据生成模拟器新增的数据源; 2. 2)选择需要生成的数据源、数据表,输入抽取的数据总条数、数据文件分页数, 生成XML文件。 作为优选,数据总条数和/或数据分页数配置成为循环递增模式,其中,数据分页 数的递增循环包含在数据总条数的递增循环内。 作为优选,步骤3)所述的生成效率参数包括: 生成时耗,即从模拟数据库中抽取的模拟数据开始到XML文件生成消耗的时间; 生成总开始时间,即当前次当前数据表抽取数据开始时间; 生成总结束时间,即当前次当前数据表抽取数据结束时间; XML 文件名; 抽取开始时间,即数据从数据库检索出来的开始时间; 抽取结束时间,即数据从数据库检索出来的结束时间; 生成开始时间,即生成XML文件的开始时间; 生成结束时间,即生成XML文件的结束时时间; 文件记录数,即当前XML文件所包含的数据; 文件大小,即当前XML文件生成后所占的磁盘空间的大小。 作为优选,步骤4)中各个数量级数据生成XML文件是通过循环配置或自动循环抽 取配置完成数据抽取,循环步骤1)至步骤3)的数据抽取生成XML文件。 作为优选,抽取的数据表具有Μ个数量级的N (N< M)个分页信息、抽取时耗、文 件存储空间大小。 作为优选,模拟数据库中设计有: "模拟数据表参数配置"信息主表,内容如下: 【权利要求】1. ,其特征在于,步骤如下: 1) 使用同构数据生成模拟器生成模拟数据; 2) 使用XML文件生成器抽取模拟数据,生成XML文件; 3) 在知识分析数据库中记录抽取模拟数据、生成每个XML文件的生成效率参数; 4) 将各个数量级数据生成XML文件执行时间最短的生成效率参数作为执行标准,基于 执行标准进行实际环境数据抽取并生成XML文件。2. 根据权利要求1所述的基于历史分析的无人智能驱动的数据文件生成方法,其特征 在于,步骤4)进一步地,将实际环境数据抽取、生成XML文件的生成效率参数进行存储积 累,等待下一次判断各个数量级数据生成XML文件执行时间最短的生成效率参数,确定新 的执行标准。3. 根据权利要求1或2所述的基于历史分析的无人智能驱动的数据文件生成方法,其 特征在于,步骤1)的步骤如下: 1. 1)新增数据源:在模拟数据库中模拟业务数据库生成数据源; 1. 2)新增同构数据表:在步骤1. 1)中新增的数据源下选择要同构的数据表,并进行同 构操作,同构数据表下为新增的数据项信息; 1. 3)生成模拟数据:选择同构数据表下要生成的数据记录数,生成模拟数据操作。4. 根据权利要求1或2所述的基于历史分析的无人智能驱动的数据文件生成方法,其 特征在于,步骤2)的步骤如下: 2. 1)连接同构数据生成模拟器新增的数据源; 2. 2)选择需要生成的数据源、数据表,输入抽取的数据总条数、数据文件分页数,生成 XML文件。5. 根据权利要求4所述的基于历史分析的无人智能驱动的数据文件生成方法,其特征 在于,数据总条数和/或数据分页数配置成为循环递增模式,其中,数据分页数的递增循环 包含在数据总条数的递增循环内。6. 根据权利要求1或2所述的基于历史分析的无人智能驱动的数据文件生成方法,其 特征在于,步骤3)所述的生成效率参数包括: 生成时耗,即从模拟数据库中抽取的模拟数据开始到XML文件生成消耗的时间; 生成总开始时间,即当前次当前数据表抽取数据开始时间; 生成总结束时间,即当前次当前数据表抽取数据结束时间; XML文件名; 抽取开始时间,即数据从数据库检索出来的开始时间; 抽取结束时间,即数据从数据库检索出来的结束时间; 生成开始时间,即生成XML文件的开始时间; 生成结束时间,即生成XML文件的结束时时间; 文件记录数,即当前XML文件所包含的数据; 文件大小,即当前XML文件生成后所占的磁盘空间的大小。7. 根据权利要求1或2所述的基于历史分析的无人智能驱动的数据文件生成方法,其 特征在于,步骤4)中各个数量级数据生成XML文件是通过循环配置或自动循环抽取配置完 成数据抽取,循环步骤1)至步骤3)的数据抽取生成XML文件。8. 根据权利要求7所述的基于历史分析的无人智能驱动的数据本文档来自技高网...

【技术保护点】
一种基于历史分析的无人智能驱动的数据文件生成方法,其特征在于,步骤如下:1)使用同构数据生成模拟器生成模拟数据;2)使用XML文件生成器抽取模拟数据,生成XML文件;3)在知识分析数据库中记录抽取模拟数据、生成每个XML文件的生成效率参数;4)将各个数量级数据生成XML文件执行时间最短的生成效率参数作为执行标准,基于执行标准进行实际环境数据抽取并生成XML文件。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄文淮邓慧挺余建成
申请(专利权)人:厦门雅迅网络股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1