System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据信息转换,更具体地说,涉及一种将自定义表格数据转换为规范格式数据的方法。
技术介绍
1、随着电子通讯产业的不断发展和进步,越来越多的电子通讯设备需要协作工作,而百分之九十以上的设备或多或少都是由计算机控制的,而计算机实质上就是数字化控制,对数据做处理、分析以及输入和输出,那么电子设备之间的互通实质上就变成了数据的交互,现有的技术一般会正对需要对接的第三方设备做定制化数据处理,但是这种做法存在不能灵活调节数据格式的缺陷。
技术实现思路
1、本专利技术的目的在于提供一种将自定义表格数据转换为规范格式数据的方法,以解决上述
技术介绍
中提出的问题。
2、一种将自定义表格数据转换为规范格式数据的方法,所述一种将自定义表格数据转换为规范格式数据的方法包括以下步骤;
3、s1、整体预览:对表格数据进行整体预览,确定表头和表格数据行的开始位置,提取主要特征;
4、s2、配置数据:根据表头名称配置数据编码参数,配置原始编码与最终输出的结果编码;
5、s3、预处理原始数据:对于复杂结构的原始数据进行预处理,补全单行数据,并进行增加、删除、编辑额外的数据和定义标签编码;
6、s4、分类编码:根据表格结构配置转换后数据的分类编码,每一种数据分类都拥有唯一的标签编码,得到处理后的中间数据;
7、s5、数据转换:对中间数据根据唯一的标签编码进行数据整合,得到相应的分类数据和最终转换结果数据,验证转换后的数据是否符合规范格式
8、s6、导出数据:将转换后的数据导出为规范格式文件以及储存到数据库中。
9、优选地,所述s1还包括以下步骤:
10、s1-1、预览数据:首先打开表格文件,并确定表格的行数和列数,然后滚动表格查看表格内容,了解表格中的数据布局和内容,再确定表头和表格数据的开始位置;
11、s1-2、提取特征:当确定表头和表格数据的开始位置后,查看每列数据的范围和分布情况,了解数据的取值范围和分布特征,并根据业务需求和数据分析目标,识别出主要特征,然后提取已识别的主要特征,且主要特征为具有代表性和重要性的列,确保包含这些特征的列作为后续数据分析和建模的重要输入;
12、s1-3、去除冗余特征:当提取特征后,去除不必要以及冗余的特征。
13、优选地,所述s2还包括以下步骤:
14、s2-1、确定编码需求:当提取特征后,分析原始数据和规范格式数据的要求,确定需要进行编码的数据类型和字段,然后分析原始数据的类型,确定进行编码转换的数据字段,以及每个字段的数据类型;
15、s2-2、定义编码:当确定编码转换的数据字段,以及每个字段的数据类型,根据原始数据类型和规范格式的要求,定义编码规则,以及通过自定义的方式定义编码规则;
16、s2-3、创建编码映射表:定义编码规则后,创建一个编码映射表,并将原始文本值映射为规范格式中的编码值,且编码映射表通常是一个包含原始值和对应编码值的字典或数据框。
17、优选地,所述s3还包括以下步骤:
18、s3-1、补全单行数据:将原始文本值映射为规范格式中的编码值后,分析原始数据,并识别其中的缺失值,然后使用插值方法补全单行数据;
19、s3-2、数据处理:当补全单行数据后,根据数据分析的需要进行创建新的数据字段、合并数据、拆分数据和计算衍生变量操作;
20、且插补方法的公式:
21、假设有两个已知点$(x_0,y_0)$和$(x_1,y_1)$,我们希望在这两个点之间的某个$x$值处估算对应的$y$值。
22、线性插值公式为:
23、y=yo+(x-xo)x x1-x0/y1-y0其中,
24、·$x_0$和$x_1$是已知数据点的横坐标;
25、·$y_0$和$y_1$是已知数据点的纵坐标;*$x$是要估算的横坐标;
26、·$y$是通过线性插值得到的纵坐标;
27、这个公式表示的是,在横坐标为$x$的位置上,$y$的值等于已知两个点之间的直线上对应$x$值处的$y$值。
28、优选地,所述s4还包括以下步骤:
29、s4-1、数据分类:当数据处理后,分析规范格式数据的要求,确定对数据进行分类的类别,然后根据数据分类的性质和需求,确定分类编码的方式,且常见的分类编码方式包括顺序编码和独热编码;
30、s4-2、创建分类编码表:当确定分类编码的方式后,根据数据分类的种类,创建分类编码表,然后根据分类编码表,为每个数据分类分配唯一的标签编码,确保每个数据分类都有一个唯一的标签编码,并且标签编码与其对应的分类名称相对应,再将标签编码作为新的列添加到数据框中,编码表通常是一个包含分类名称和对应标签编码的字典或数据框;
31、s4-3、验证分类编码:对添加分类编码的数据进行验证,确保分类编码的准确性和一致性,并通过手动检查分类编码是否正确应用到每个数据分类中;
32、独热编码是将分类变量转换为一种数值型表示的方法,常用于机器学习和深度学习任务中;在独热编码中,每个不同的类别被表示为一个向量,其中只有一个元素为1,其余元素为0。
33、具体地说,如果有n个不同的类别,那么独热编码将会创建一个n维的向量,对应每个类别;在这个向量中,对应类别的位置上的值为1,而其他位置上的值为0;
34、举例来说,假设有三个类别:狗、猫和鸟;狗对应的独热编码可能是[1,0,0],猫对应的编码是[0,1,0],鸟对应的编码是[0,0,1];
35、独热编码的优点是:
36、保留了类别之间的相对关系,不会引入偏序关系;
37、在某些机器学习算法中(例如神经网络),独热编码的形式更容易被处理和理解。
38、优选地,所述s5还包括以下步骤:
39、s5-1、整合中间数据:当验证分类编码后,根据唯一的标签编码,将中间数据中具有相同标签编码的数据进行整合,并得到分类数据,且这些分类数据是按照不同的分类进行分组的数据;
40、s5-2、转换数据:得到分类数据后,根据规范格式的要求,对分类数据进行数据聚合和调整数据结构操作,生成最终的转换结果数据;
41、s5-3、验证结果数据:当生成最终的转换结果数据后,通过手动检查、打印数据和使用数据可视化工具对生成的最终转换结果进行验证,确保数据的结构和内容符合规范格式的要求。
42、优选地,所述s6还包括以下步骤:
43、s6-1、确定格式:当最终的转换结果数据通过验证后,根据数据的特性和需求确定规范格式,且规范格式包括json、xml、csv和excel;
44、s6-2、执行导出操作:当确定规范格式后,根据确定的规范格式,使用工具将转换后的数据导出该格式的文件,然后指定导出文件的路径和文本文档来自技高网...
【技术保护点】
1.一种将自定义表格数据转换为规范格式数据的方法,其特征在于:所述一种将自定义表格数据转换为规范格式数据的方法包括以下步骤;
2.根据权利要求1所述的一种将自定义表格数据转换为规范格式数据的方法,其特征在于,所述S1还包括以下步骤:
3.根据权利要求1所述的一种将自定义表格数据转换为规范格式数据的方法,其特征在于,所述S2还包括以下步骤:
4.根据权利要求1所述的一种将自定义表格数据转换为规范格式数据的方法,其特征在于,所述S3还包括以下步骤:
5.根据权利要求1所述的一种将自定义表格数据转换为规范格式数据的方法,其特征在于,所述S4还包括以下步骤:
6.根据权利要求1所述的一种将自定义表格数据转换为规范格式数据的方法,其特征在于,所述S5还包括以下步骤:
7.根据权利要求1所述的一种将自定义表格数据转换为规范格式数据的方法,其特征在于,所述S6还包括以下步骤:
【技术特征摘要】
1.一种将自定义表格数据转换为规范格式数据的方法,其特征在于:所述一种将自定义表格数据转换为规范格式数据的方法包括以下步骤;
2.根据权利要求1所述的一种将自定义表格数据转换为规范格式数据的方法,其特征在于,所述s1还包括以下步骤:
3.根据权利要求1所述的一种将自定义表格数据转换为规范格式数据的方法,其特征在于,所述s2还包括以下步骤:
4.根据权利要求1所述的一种将自定义表格数据...
【专利技术属性】
技术研发人员:夏天平,熊江林,
申请(专利权)人:上海敬之网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。