一种基于实体嵌入的结构化数据处理方法技术

技术编号：25988953 阅读：40 留言：0更新日期：2020-10-20 18:56

本发明专利技术涉及一种基于实体嵌入的结构化数据处理方法，包括以下步骤：1)获得包含结构化数据的数据集作为原始数据集；2)对原始数据集进行预处理；3)将预处理后原始数据集中的数据用于基于实体嵌入的神经网络模型的训练；4)将测试数据输入训练好的神经网络模型中，输出预测结果。与现有技术相比，本发明专利技术具有无需特征工程、针对类别数据效果好等优点。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于实体嵌入的结构化数据处理方法
本专利技术涉及数据处理系统
，尤其是涉及一种基于实体嵌入的结构化数据处理方法。
技术介绍
随着信息技术的日趋进步，结构化数据规模越来越大，特征越来越复杂，这给结构化数据的处理带来了很大的挑战，在处理结构化数据的过程中，往往需要进行特征工程，对特征与预测目标的关系以及特征与特征之间的关系进行分析，特征工程的质量，依赖于特征工程专家的经验，随着特征数量的增加，进行特征工程的人力成本也大大增加，神经网络虽然在非结构化数据的处理上取得了显著的效果，但对于包含类别特征数据的结构化数据，则无法很好地进行处理，现有神经网络模型方法需要将类别特征数据先转化为整数，将其视为数值特征数据输入到模型中进行训练，但这一方法存在问题，差别小的类别对预测目标的影响相似，差别大的类别对预测目标的影响不同，将类别特征转化为整数，无法量化不同类别对预测目标的影响，使得不同类别间的差别信息产生损失，神经网络会将其视为一般的数值特征，却无法学习到类别间的差别信息。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于实体嵌入的结构化数据处理方法。本专利技术的目的可以通过以下技术方案来实现：一种基于实体嵌入的结构化数据处理方法，包括以下步骤：1)获得包含结构化数据的数据集作为原始数据集；2)对原始数据集进行预处理；3)将预处理后原始数据集中的数据用于基于实体嵌入的神经网络模型的训练；4)将测试数据输入训练好的神经网络模型...

【技术保护点】
1.一种基于实体嵌入的结构化数据处理方法，其特征在于，包括以下步骤：/n1)获得包含结构化数据的数据集作为原始数据集；/n2)对原始数据集进行预处理；/n3)将预处理后原始数据集中的数据用于基于实体嵌入的神经网络模型的训练；/n4)将测试数据输入训练好的神经网络模型中，输出预测结果。/n

【技术特征摘要】
1.一种基于实体嵌入的结构化数据处理方法，其特征在于，包括以下步骤：
1)获得包含结构化数据的数据集作为原始数据集；
2)对原始数据集进行预处理；
3)将预处理后原始数据集中的数据用于基于实体嵌入的神经网络模型的训练；
4)将测试数据输入训练好的神经网络模型中，输出预测结果。

2.根据权利要求1所述的一种基于实体嵌入的结构化数据处理方法，其特征在于，所述的步骤1)中，包含结构化数据的数据集包括公开竞赛的数据集、大学公开的数据集和企业公开的数据集，所述的公开竞赛的数据集具体为Kaggle和KDD竞赛网站上的数据集，所述的大学公开的数据集具体为加州大学欧文分校公开的数据集，所述的企业公开的数据集具体为微软和雅虎企业公开的数据集。

3.根据权利要求1所述的一种基于实体嵌入的结构化数据处理方法，其特征在于，所述的步骤2)具体包括以下步骤：
21)从原始数据中划分特征数据和目标标签数据；
22)根据特征数据的类型对缺失值进行补全；
23)对类别特征数据进行数值编码，将类别特征数据转化为整数类型数据，使得同一类别对应相同整数；
24)重新排列特征数据顺序。

4.根据权利要求3所述的一种基于实体嵌入的结构化数据处理方法，其特征在于，所述的步骤22)中，特征数据的类型包括数值特征数据与类别特征数据，对于数值特征数据取训练数据中未缺失的数据的平均值，代替原有的缺失值，完成补全，对于类别特征数据使用标记字符，代替原有的缺失值。

5.根据权利要求3所述的一种基于实体嵌入的结构化数据处理方法，其特征在于，所述的步骤24)中，重新排列特征数据顺序具体为：
以数值特征数据在前，类别特征数据在后的顺序对特征数据进行重新排序。

6.根据权利要求1所述的一种基...

【专利技术属性】
技术研发人员：金陆骅，符鸿飞，程帆，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人