一种基于实体嵌入的结构化数据处理方法技术

技术编号:25988953 阅读:40 留言:0更新日期:2020-10-20 18:56
本发明专利技术涉及一种基于实体嵌入的结构化数据处理方法,包括以下步骤:1)获得包含结构化数据的数据集作为原始数据集;2)对原始数据集进行预处理;3)将预处理后原始数据集中的数据用于基于实体嵌入的神经网络模型的训练;4)将测试数据输入训练好的神经网络模型中,输出预测结果。与现有技术相比,本发明专利技术具有无需特征工程、针对类别数据效果好等优点。

【技术实现步骤摘要】
一种基于实体嵌入的结构化数据处理方法
本专利技术涉及数据处理系统
,尤其是涉及一种基于实体嵌入的结构化数据处理方法。
技术介绍
随着信息技术的日趋进步,结构化数据规模越来越大,特征越来越复杂,这给结构化数据的处理带来了很大的挑战,在处理结构化数据的过程中,往往需要进行特征工程,对特征与预测目标的关系以及特征与特征之间的关系进行分析,特征工程的质量,依赖于特征工程专家的经验,随着特征数量的增加,进行特征工程的人力成本也大大增加,神经网络虽然在非结构化数据的处理上取得了显著的效果,但对于包含类别特征数据的结构化数据,则无法很好地进行处理,现有神经网络模型方法需要将类别特征数据先转化为整数,将其视为数值特征数据输入到模型中进行训练,但这一方法存在问题,差别小的类别对预测目标的影响相似,差别大的类别对预测目标的影响不同,将类别特征转化为整数,无法量化不同类别对预测目标的影响,使得不同类别间的差别信息产生损失,神经网络会将其视为一般的数值特征,却无法学习到类别间的差别信息。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于实体嵌入的结构化数据处理方法。本专利技术的目的可以通过以下技术方案来实现:一种基于实体嵌入的结构化数据处理方法,包括以下步骤:1)获得包含结构化数据的数据集作为原始数据集;2)对原始数据集进行预处理;3)将预处理后原始数据集中的数据用于基于实体嵌入的神经网络模型的训练;4)将测试数据输入训练好的神经网络模型中,输出预测结果。所述的步骤1)中,包含结构化数据的数据集包括公开竞赛的数据集、大学公开的数据集和企业公开的数据集,所述的公开竞赛的数据集具体为Kaggle和KDD竞赛网站上的数据集,所述的大学公开的数据集具体为加州大学欧文分校公开的数据集,所述的企业公开的数据集具体为微软和雅虎企业公开的数据集。所述的步骤2)具体包括以下步骤:21)从原始数据中划分特征数据和目标标签数据;22)根据特征数据的类型对缺失值进行补全;23)对类别特征数据进行数值编码,将类别特征数据转化为整数类型数据,使得同一类别对应相同整数;24)重新排列特征数据顺序。所述的步骤22)中,特征数据的类型包括数值特征数据与类别特征数据,对于数值特征数据取训练数据中未缺失的数据的平均值,代替原有的缺失值,完成补全,对于类别特征数据使用标记字符“Missing_Value”,代替原有的缺失值。所述的步骤24)中,重新排列特征数据顺序具体为:以数值特征数据在前,类别特征数据在后的顺序对特征数据进行重新排序。所述的步骤3)具体包括以下步骤:31)构建基于实体嵌入的神经网络模型,其具体网络结构包括实体嵌入层、两个全连接层和输出层;31)向基于实体嵌入的神经网络模型输入预处理后的数据进行训练得到网络参数。在实体嵌入层中,对于数值特征数据分别构建一个神经元个数为1的全连接层,对于类别特征数据分别构建一个映射到维向量的嵌入层,N为类别总数,实体嵌入层的规模根据输入的类别特征数据的规模动态变化。在两个全连接层中,对于二分类和多分类目标,第一全连接层的神经元个数为2000,第二全连接层的神经元个数为1000,对于回归目标,第一全连接层的神经元个数为1000,第二全连接层的神经元个数为500,两个全连接层的激活函数均为relu。在输出层中,对于二分类目标,输出层输出维数为1,激活函数为sigmoid,对于多分类目标,输出层输出维数为分类标签数,激活函数为softmax,对于回归目标,输出层输出维数为1,无激活函数。所述的步骤31)中,基于实体嵌入的神经网络模型训练的损失函数和优化器的具体选择为:对于二分类目标,损失函数为binarycrossentropy,优化器为Adam优化器;对于多分类目标,损失函数为categoricalcrossentropy,优化器为Adam优化器;对于回归目标,损失函数为最小平方误差,优化器为RMSprop。与现有技术相比,本专利技术具有以下优点:1)本专利技术采用了神经网络的方法,比传统的结构化数据处理方法相比,神经网络通过动态调整各隐藏层参数,能够自动学习到特征与预测目标、特征与特征间的关系,省去了特征工程的步骤,降低了人力成本。2)本专利技术采用了基于实体嵌入的神经网络模型,相比现有的神经网络方法,通过嵌入层对类别数据进行实体嵌入,不是使用一个整数,而是使用一个向量来代表一个类别,能够量化不同类别对预测目标的影响,并学习到不同类别间的差别信息,在处理类别特征数据上能得到更好的效果。3)本专利技术能够处理二分类、多分类和回归问题,可以通过调整损失函数与优化器的类别来处理不同的目标标签,可拓展性强。4)本专利技术具有商业意义,不仅能处理公开数据集,也可以推广到企业内部业务数据的处理中。附图说明图1为本专利技术的方法流程图。图2为本专利技术预处理和训练的流程图。图3为基于实体嵌入的神经网络结构示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。实施例为了更加清晰、详尽地解释本专利技术的目的、技术方案和要点,本专利技术将进一步进行详细的阐述。应当理解,此处描述的实施方法仅仅用于解释本专利技术的具体方法,而并非限定本专利技术。本领域的技术人员可以根据本专利技术阐述的原理进行实施和推广,根据需要处理的结构化数据集进行简单的修改,即可将本专利技术推广到类似的应用场景。如图1所示,本专利技术提供一种基于实体嵌入的结构化数据处理方法,具体为:本专利技术首先对原始数据进行预处理,然后使用预处理后的数据对基于实体嵌入的神经网络进行训练,最后训练好的神经网络根据测试数据对目标标签进行预测,具体包括预处理阶段、训练模型阶段和使用模型三个阶段。1)预处理阶段:获得包含结构化数据的数据集作为原始数据集并对原始数据进行预处理。首先根据数据集的任务,从原始数据中划分出特征数据与目标标签数据。然后,根据特征数据类型对特征数据中的缺失值进行补全。具体地,对于数值特征数据,取训练数据中未缺失的数据的平均值,代替原有的缺失值;对于类别特征数据,使用特殊的标记字符,代替原有的缺失值。接着,对类别数据进行数值编码,具体地,使用Pythonsklearn.preprocessing库中的LabelEncoder来将类别数据转化为整数类型数据,同一类别对应相同整数。最后,重新排列特征数据顺序,以数值特征数据在前,类别特征数据在后的顺序对特征数据进行重新排序。2)训练模型阶段首先构建基于实体嵌入的神经网络模型,具体为实体嵌入层、两个全连接层和输出层构成网络结构,如图3所示。实体嵌入层的规模会根据输入数据的规模动态变化,对于数值特征数据,通过一个神经元个数为1的全连接层0,得到一个1维的向量;对于类别特征数据,通过一个嵌入层,将其映射为(N为类别数量)维向本文档来自技高网...

【技术保护点】
1.一种基于实体嵌入的结构化数据处理方法,其特征在于,包括以下步骤:/n1)获得包含结构化数据的数据集作为原始数据集;/n2)对原始数据集进行预处理;/n3)将预处理后原始数据集中的数据用于基于实体嵌入的神经网络模型的训练;/n4)将测试数据输入训练好的神经网络模型中,输出预测结果。/n

【技术特征摘要】
1.一种基于实体嵌入的结构化数据处理方法,其特征在于,包括以下步骤:
1)获得包含结构化数据的数据集作为原始数据集;
2)对原始数据集进行预处理;
3)将预处理后原始数据集中的数据用于基于实体嵌入的神经网络模型的训练;
4)将测试数据输入训练好的神经网络模型中,输出预测结果。


2.根据权利要求1所述的一种基于实体嵌入的结构化数据处理方法,其特征在于,所述的步骤1)中,包含结构化数据的数据集包括公开竞赛的数据集、大学公开的数据集和企业公开的数据集,所述的公开竞赛的数据集具体为Kaggle和KDD竞赛网站上的数据集,所述的大学公开的数据集具体为加州大学欧文分校公开的数据集,所述的企业公开的数据集具体为微软和雅虎企业公开的数据集。


3.根据权利要求1所述的一种基于实体嵌入的结构化数据处理方法,其特征在于,所述的步骤2)具体包括以下步骤:
21)从原始数据中划分特征数据和目标标签数据;
22)根据特征数据的类型对缺失值进行补全;
23)对类别特征数据进行数值编码,将类别特征数据转化为整数类型数据,使得同一类别对应相同整数;
24)重新排列特征数据顺序。


4.根据权利要求3所述的一种基于实体嵌入的结构化数据处理方法,其特征在于,所述的步骤22)中,特征数据的类型包括数值特征数据与类别特征数据,对于数值特征数据取训练数据中未缺失的数据的平均值,代替原有的缺失值,完成补全,对于类别特征数据使用标记字符,代替原有的缺失值。


5.根据权利要求3所述的一种基于实体嵌入的结构化数据处理方法,其特征在于,所述的步骤24)中,重新排列特征数据顺序具体为:
以数值特征数据在前,类别特征数据在后的顺序对特征数据进行重新排序。


6.根据权利要求1所述的一种基...

【专利技术属性】
技术研发人员:金陆骅符鸿飞程帆
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1