从分布式数据学习制造技术

技术编号：16708034 阅读：28 留言：0更新日期：2017-12-02 23:18

本公开涉及从分布式数据学习。具体而言，涉及从多个第一数据样本确定多个第一训练样本。多个第一数据样本中的每一个包括多个第一特征值和对该第一数据样本进行分类的第一标签。处理器通过以下方式确定该多个第一训练样本中的每一个：选择该多个第一数据样本的第一子集，使得第一子集包括具有该多个第一特征值中的对应的一个或多个第一特征值的数据样本，以及基于第一子集的第一数据样本中的每一个的第一标签，组合第一子集的数据样本的第一特征值。可以将所得的训练样本与共享相同的对应特征的来自其他数据库的训练样本组合，以及实体匹配是不必要的。

From distributed data learning

This disclosure involves learning from distributed data. In particular, it is involved to determine a plurality of first training samples from a plurality of first data samples. Each of the plurality of first data samples includes a plurality of first eigenvalues and a first label for classification of the first data sample. The processor through the following ways were determined for each of the plurality of first training samples: the first subset of the plurality of first data samples, the first subset includes a plurality of first features corresponding to the value of one or more of the first eigenvalue of the sample data, the first label for each of the first sample data and on the basis of the first subset of the first feature combination a first subset of data sample values. It is not necessary to combine the obtained training samples with the training samples from other databases and entity matching that share the same corresponding characteristics.

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】从分布式数据学习对相关申请的交叉引用本申请要求来自2015年2月13日提交的澳大利亚临时专利申请No.2015900463的优先权，该申请的内容在此通过引用并入本文。
本公开涉及从分布式数据学习。
技术介绍
通过因特网提供服务或产品的公司常常从其客户收集广泛的数据，并处理这种数据以获得对其客户的行为的聚合型洞察。在很多情况下，与一个个体客户相关的数据可以在多个独立的数据库中发现。不过，这些数据库中的大部分不共享公共的唯一标识符，诸如社会保险号。因此，难以使用来自这两个数据库的数据进行学习。图1例示了现有技术情境100，其包括个体102、数据聚合器104(诸如公司)，第一数据库106和第二数据库108。如箭头110和112所指示的，与个体102相关的数据包含在数据库106和108两者中。已经包括在本说明书中的文档、法令、材料、装置、物品等的任何论述不应被视为承认这些事物的任一种或全部形成现有技术基础的一部分或当其存在于本申请的每项权利要求的优先权日期之前时是本公开相关领域中的公知常识。贯穿本说明书，词语“包括”或其变型将被理解为暗示包括所述的元件、整数或步骤、或元件、整数或步骤的组，但不排除任何其他元件、整数或步骤或元件、整数或步骤的组。
技术实现思路
提供了一种用于从多个第一数据样本确定多个第一训练样本的计算机实现的方法。该多个第一数据样本中的每一个包括多个第一特征值和对第一数据样本进行分类的第一标签。该方法包括：通过以下方式确定该多个第一训练样本中的每一个:选择该多个第一数据样本的第一子集，使得第一子集包括具有该多个第一特征值中的对应的一个或多个第一特征值的...
从分布式数据学习

【技术保护点】
一种用于从多个第一数据样本确定多个第一训练样本的计算机实现的方法，所述多个第一数据样本中的每一个包括多个第一特征值和对该第一数据样本进行分类的第一标签，所述方法包括：通过以下方式确定所述多个第一训练样本中的每一个：选择所述多个第一数据样本的第一子集，使得第一子集包括具有所述多个第一特征值中的对应的一个或多个第一特征值的数据样本，并且基于第一子集的第一数据样本中的每一个的第一标签，组合第一子集的所述数据样本的第一特征值。

【技术特征摘要】
【国外来华专利技术】2015.02.13 AU 20159004631.一种用于从多个第一数据样本确定多个第一训练样本的计算机实现的方法，所述多个第一数据样本中的每一个包括多个第一特征值和对该第一数据样本进行分类的第一标签，所述方法包括：通过以下方式确定所述多个第一训练样本中的每一个：选择所述多个第一数据样本的第一子集，使得第一子集包括具有所述多个第一特征值中的对应的一个或多个第一特征值的数据样本，并且基于第一子集的第一数据样本中的每一个的第一标签，组合第一子集的所述数据样本的第一特征值。2.根据权利要求1所述的方法，其中所述多个第一数据样本是第一数据集的数据样本，并且所述多个第一特征值中的所述对应的一个或多个第一特征值也是第二数据集的多个第二数据样本的第二子集的对应的特征值。3.根据权利要求1或2所述的方法，还包括：组合所述多个第一训练样本中的两个或更多个第一训练样本，以由此确定组合的训练样本。4.根据权利要求3所述的方法，其中组合所述多个第一训练样本中的两个或更多个第一训练样本包括将所述多个第一训练样本中的所述两个或更多个第一训练样本加起来。5.根据前述权利要求中的任一项所述的方法，其中选择第一子集包括选择所述多个第一数据样本中的具有所述多个特征值中的对应的一个或多个特征值的全部第一数据样本。6.根据前述权利要求中的任一项所述的方法，其中选择所述多个第一数据样本的第一子集包括选择所述多个第一数据样本的第一子集，以使得第一子集包括具有所述多个第一特征值中的对应的两个或更多个第一特征值的数据样本。7.根据前述权利要求中的任一项所述的方法，其中选择所述多个第一数据样本的第一子集包括选择所述多个第一数据样本的第一子集，以使得第一标签对于所述多个第一数据样本的第一子集是一致的。8.根据前述权利要求中的任一项所述的方法，其中组合所述数据样本的第一特征值包括确定第一数据样本的第一特征值之和，以使得第一训练样本的特征的特征值是所述数据样本的该特征的第一特征值之和。9.根据权利要求8所述的方法，其中确定所述和包括确定基于第一数据样本中的每一个的第一标签进行加权的加权和。10.根据前述权利要求中的任一项所述的方法，其中第一数据样本具有带符号的实数值作为第一特征值，并且第一标签是“-1”和“+1”之一。11.根据前述权利要求中的任一项所述的方法，其中选择第一子集包括选择第一子集，以使得第一子集仅包括具有所述多个第...

【专利技术属性】
技术研发人员：R·诺克，G·派特锐尼，
申请(专利权)人：澳大利亚国家ICT有限公司，
类型：发明
国别省市：澳大利亚,AU

全部详细技术资料下载我是这个专利的主人