异源异构数据清洗方法及其系统技术方案

技术编号:14964715 阅读:215 留言:0更新日期:2017-04-02 19:13
本发明专利技术公开了一种异源异构数据清洗方法及其系统,所述方法包括:预设标题行;载入标题特征库和文件数据,所述标题特征库存储包括所述预设标题行中的标题与所述文件数据中标题的映射关系;遍历所述文件数据的每一行数据,确定标题行;遍历所述标题行的每一列数据,确定所述每一列数据的标题;依据所述标题特征库,确定所述每一列数据的标题在所述预设标题行中对应的标题;将所述每一列数据添加至所述预设标题行中对应的标题下。通过采用标题特征库,自动识别标题,解析文件数据,自动匹配标题列,节约了人工成本,提高了数据清洗的准确性和便捷性,并且可适用于多种格式的文件和数据,适应性强,可以通用、全面地解决异源异构数据的清洗问题。

【技术实现步骤摘要】

本专利技术涉及数据清洗领域,尤其涉及一种异源异构数据清洗方法及其系统
技术介绍
异源异构数据是指数据内容中标题位置不确定、内容项目位置不确定的文件数据。目前市场上的产品对异源异构数据的清洗,都是需要手动建立模板,指定标题位置,这样的操作非常不便;一旦文件标题内容及项目顺序有任何变动,又得重新指定标题位置,建立新模板。在申请号为201310388420.7的专利公开文件中,提出一种异构数据源的数据加工处理方法,包括以下步骤:从异构数据源中获取数据;根据预设数据模板对数据进行加载和分类,并根据分类结果将每一类的数据分别存入临时存储单元中;对临时存储单元中存储的数据进行一致化转换以得到满足预设数据结构的数据,并根据预定需求对转换后的数据进行合并和汇总以使处理后的数据满足数据分析需求。该公开文件将来自不同的异构数据源中的数据统一加工处理为满足数据分析需要的数据,但该方法需要预设数据模板和数据结构,若数据模板改变则数据结构也要相应改变,且还要占用临时储存单元的内存。专利技本文档来自技高网...

【技术保护点】
一种异源异构数据清洗方法,其特征在于:包括预设标题行;载入标题特征库和文件数据,所述标题特征库存储包括所述预设标题行中的标题与所述文件数据中标题的映射关系;遍历所述文件数据的每一行数据,确定标题行;遍历所述标题行的每一列数据,确定所述每一列数据的标题;依据所述标题特征库,确定所述每一列数据的标题在所述预设标题行中对应的标题;将所述每一列数据添加至所述预设标题行中对应的标题下。

【技术特征摘要】
1.一种异源异构数据清洗方法,其特征在于:包括
预设标题行;
载入标题特征库和文件数据,所述标题特征库存储包括所述预设标题行中
的标题与所述文件数据中标题的映射关系;
遍历所述文件数据的每一行数据,确定标题行;
遍历所述标题行的每一列数据,确定所述每一列数据的标题;
依据所述标题特征库,确定所述每一列数据的标题在所述预设标题行中对
应的标题;
将所述每一列数据添加至所述预设标题行中对应的标题下。
2.根据权利要求1所述的异源异构数据清洗方法,其特征在于:所述“遍
历所述标题行的每一列数据”之后,进一步包括:
若列数据无标题,则统计所述列数据,依据特征概率,获取所述列数据的
标题,确定所述列数据的标题在所述预设标题行中对应的标题。
3.根据权利要求1所述的异源异构数据清洗方法,其特征在于:所述“遍
历所述文件数据的每一行数据”之后,进一步包括:
若无标题行,则统计每一列的数据,依据特征概率,获取列数据的标题,
确定所述列数据的标题在所述预设标题行中对应的标题。
4.根据权利要求1所述的异源异构数据清洗方法,其特征在于:所述“依
据所述标题特征库,确定所述每一列数据的标题在所述预设标题行中对应的标
题”之后,进一步包括:
接收对所述映射关系的修改信息;
根据所述修改信息,对应修改所述映射关系。
5.根据权利要求1所述的异源异构数据清洗方法,其特征在于:所述“载
入标题特征库和文件数据”之后还包括:
若文件数据为多标题文件数据,则对多标题文件数据进行预处理,拆分所
述多标题文件数据为多个的单标题文件数据。
6.根据权利要求5所述的异源异构数据清洗方法,其特征在于:所述预处
理过程具体为:遍历所述多标题文件数据的每一行数据,若为标题行,则保存

\t所述标题行之前的数据至一个文件中,并保存所述标题行至另一个文件中;若
不为标题行,则保存所述行数据至前一标题行所在的文件中。
7.一种异源异构数据清洗系统,其特征在...

【专利技术属性】
技术研发人员:倪文冠江汉祥
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1