【技术实现步骤摘要】
半导体源数据解析方法、ETL系统、计算机设备和产品
[0001]本申请涉及半导体
,特别是涉及一种半导体源数据解析方法、ETL系统、计算机设备和产品。
技术介绍
[0002]数据仓库技术(Extract
‑
Transform
‑
Load,ETL)是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据,ETL是BI(商业智能)项目重要的一个环节。
[0003]半导体源数据类型和数据格式多种多样,半导体源数据类型包括wat、cp、inline和defect,数据格式包括文本、csv、stdf和klarf;目前ETL架构的实现方案主要是在业务端中写一个解析程序,该解析程序直接对接数据库,把数据采用点对点的方式写入到数据库中,很难排查问题数据,还有每次将不同类型的半导体源数据写入数据库,需要重新去编译,该解析程序与业务端的耦合度很高,无法独立运行和水平扩展,因此,在半导体源数据量很大的情况下,半导 ...
【技术保护点】
【技术特征摘要】
1.一种半导体源数据解析方法,其特征在于,包括:获取半导体源数据和所述半导体源数据的数据量;根据所述半导体源数据的数据类型,从多种不同类型的数据解析单元中确定与所述数据类型相匹配的目标数据解析单元,其中,所述多种不同类型的数据解析单元用于解析不同数据类型的半导体源数据;根据所述半导体源数据的数据量确定所述目标数据解析单元的并发数量;利用具有所述并发数量的所述目标数据解析单元并发解析所述半导体源数据。2.根据权利要求1所述的方法,其特征在于,所述利用具有所述并发数量的所述目标数据解析单元并发解析所述半导体源数据包括:获取所述半导体源数据中每个文件的数值型文件属性;确定每个所述文件的数值型文件属性的属性值与所述并发数量相除得到的余数;根据每个所述文件对应的余数选择所述目标数据解析单元,并利用被选择的目标数据解析单元解析所述文件。3.根据权利要求2所述的方法,其特征在于,所述半导体源数据中每个文件对应多种数值型文件属性;所述获取所述半导体源数据中每个文件的数值型文件属性,之后还包括:确定所述多种数值型文件属性之间的优先级排序;根据所述多种数值型文件属性之间的优先级排序确定每个所述文件对应的目标数值型文件属性;确定每个所述文件的目标数值型文件属性的属性值与所述并发数量相除得到的余数;根据每个所述文件对应的余数选择所述目标数据解析单元,并利用被选择的目标数据解析单元解析所述文件。4.根据权利要求3所述的方法,其特征在于,所述根据所述多种数值型文件属性之间的优先级排序确定每个所述文件对应的目标数值型文件属性,包括:根据所述多种数值型文件属性之间的优先级排序确定候选数值型文件属性;其中,所述候选数值型文件属性为优先级最高的数值型文件属性;确定每个所述文件的候选数值型文件属性的属性值是否相同;如果每个所述文件的候选数值型文件属性的属性值相同,将所述候选数值型文件属性的下一级别数值型文件属性作为目标数值型文件属性。5.根据权利要求1所述的方法,其特征在于,所述利用具有所述并发数量的所述目标数据解析单元并发解析所述半导体源数据,之后还包括:生成中间备份数据;其中,所述中间备份数据为所述半导体源数据中各个文件解析后的数据;通过数据传输工具自动判断所述中间备份数据对应的文件类型,根据所述文件类型将所述中间备份数据导入至数据库对应的表中;中间备份数据还关联有数据扩展端,数据扩展端外发中间备份数据前,需调用数据传输工具先进行中间备份数据是否存在脏数据信息的判断。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:数据解析单元在解析半导体源数据前,对源数据进行一级备份;
通过所述数据传输工具将所述中间备份数据导入至数据库的过程中,判断所述中间备份数据中是否存在脏数据信息;如果所属中间备份数据中未存在脏数据信息,则删除中间备份数据中对应已完成传输的数据;如果所述中间备份数据中存在脏数据信息,记录所述脏数据信息并进行报警,再根据脏数据信息查看对应的中间备份数据,排查是中间备份数据本身问题还是数据传输工具出错问题;当属于中间备份数据本身问题时,则查看一级备份的数据,确定是半导体源数据本身的问题还是解析出错的问题;当属于数据传输工具出错问题时,则通过目标数据解析单元调用一级备份数据重新进行解析和数据传输。7.根据权利要求5所述的方法,其特征...
【专利技术属性】
技术研发人员:倪旭池,
申请(专利权)人:杭州广立微电子股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。