从分布式数据学习制造技术

技术编号:16708034 阅读:28 留言:0更新日期:2017-12-02 23:18
本公开涉及从分布式数据学习。具体而言,涉及从多个第一数据样本确定多个第一训练样本。多个第一数据样本中的每一个包括多个第一特征值和对该第一数据样本进行分类的第一标签。处理器通过以下方式确定该多个第一训练样本中的每一个:选择该多个第一数据样本的第一子集,使得第一子集包括具有该多个第一特征值中的对应的一个或多个第一特征值的数据样本,以及基于第一子集的第一数据样本中的每一个的第一标签,组合第一子集的数据样本的第一特征值。可以将所得的训练样本与共享相同的对应特征的来自其他数据库的训练样本组合,以及实体匹配是不必要的。

From distributed data learning

This disclosure involves learning from distributed data. In particular, it is involved to determine a plurality of first training samples from a plurality of first data samples. Each of the plurality of first data samples includes a plurality of first eigenvalues and a first label for classification of the first data sample. The processor through the following ways were determined for each of the plurality of first training samples: the first subset of the plurality of first data samples, the first subset includes a plurality of first features corresponding to the value of one or more of the first eigenvalue of the sample data, the first label for each of the first sample data and on the basis of the first subset of the first feature combination a first subset of data sample values. It is not necessary to combine the obtained training samples with the training samples from other databases and entity matching that share the same corresponding characteristics.

【技术实现步骤摘要】
【国外来华专利技术】从分布式数据学习对相关申请的交叉引用本申请要求来自2015年2月13日提交的澳大利亚临时专利申请No.2015900463的优先权,该申请的内容在此通过引用并入本文。
本公开涉及从分布式数据学习。
技术介绍
通过因特网提供服务或产品的公司常常从其客户收集广泛的数据,并处理这种数据以获得对其客户的行为的聚合型洞察。在很多情况下,与一个个体客户相关的数据可以在多个独立的数据库中发现。不过,这些数据库中的大部分不共享公共的唯一标识符,诸如社会保险号。因此,难以使用来自这两个数据库的数据进行学习。图1例示了现有技术情境100,其包括个体102、数据聚合器104(诸如公司),第一数据库106和第二数据库108。如箭头110和112所指示的,与个体102相关的数据包含在数据库106和108两者中。已经包括在本说明书中的文档、法令、材料、装置、物品等的任何论述不应被视为承认这些事物的任一种或全部形成现有技术基础的一部分或当其存在于本申请的每项权利要求的优先权日期之前时是本公开相关领域中的公知常识。贯穿本说明书,词语“包括”或其变型将被理解为暗示包括所述的元件、整数或步骤、或元件、整数或步骤的组,但不排除任何其他元件、整数或步骤或元件、整数或步骤的组。
技术实现思路
提供了一种用于从多个第一数据样本确定多个第一训练样本的计算机实现的方法。该多个第一数据样本中的每一个包括多个第一特征值和对第一数据样本进行分类的第一标签。该方法包括:通过以下方式确定该多个第一训练样本中的每一个:选择该多个第一数据样本的第一子集,使得第一子集包括具有该多个第一特征值中的对应的一个或多个第一特征值的数据样本,并且基于第一子集的第一数据样本中的每一个的第一标签,组合第一子集的数据样本的第一特征值。由于共享对应特征的数据样本被组合,即,处在数据集的相同块中,所以可以将所得训练样本与共享相同的对应特征的来自其他数据库的训练样本组合。作为结果,实体匹配是不必要的,这意味着与从独立数据集学习的其他方法相比的更高的精确度和更低的计算复杂性。该多个第一数据样本可以是第一数据集的数据样本,并且该多个第一特征值中的对应的一个或多个第一特征值也可以是第二数据集的多个第二数据样本的第二子集的对应特征值。该方法还可以包括组合该多个第一训练样本中的两个或更多个第一训练样本,以由此确定组合的训练样本。组合该多个第一训练样本中的两个或更多个第一训练样本可以包括将该多个第一训练样本中的两个或更多个第一训练样本加起来。选择第一子集可以包括选择该多个第一数据样本中的具有该多个特征值中的对应的一个或多个特征值的全部第一数据样本。选择该多个第一数据样本的第一子集可以包括选择该多个第一数据样本的第一子集,以使得第一子集包括具有该多个第一特征值中的对应的两个或更多个第一特征值的数据样本。选择该多个第一数据样本的第一子集可以包括选择该多个第一数据样本的第一子集,以使得第一标签对于该多个第一数据样本的第一子集是一致的。组合数据样本的第一特征值可以包括确定第一数据样本的第一特征值之和,以使得第一训练样本的特征的特征值是数据样本的该特征的第一特征值之和。确定和可以包括确定基于第一数据样本中的每一个的第一标签进行加权的加权和。第一数据样本可以具有带符号的实数值作为第一特征值,并且第一标签可以是“-1”和“+1”之一。选择第一子集可以包括选择第一子集,以使得第一子集仅包括具有该多个第一特征值中的一致的一个或多个第一特征值的数据样本。一种用于融合第一训练数据集和第二训练数据集的方法,包括:为第一训练数据集执行根据权利要求1到11中的任一项所述的方法以确定多个第一训练样本;为第二训练数据集执行根据权利要求1到11中的任一项所述的方法以确定多个第二训练样本;以及合并该多个第一训练样本中的每一个第一训练样本与该多个第二训练样本中的基于与该第一训练样本相同的一致特征值的一个第二训练样本。合并该多个第一训练样本中的每一个第一训练样本与该多个第二训练样本中的一个第二训练样本可以包括确定第三训练样本,第三训练样本包括:该一个或多个一致特征值;该第一训练样本的除对应的一个或多个特征值之外的第一特征值;以及该多个第二训练样本中的一个第二训练样本的除对应的一个或多个特征值之外的第二特征值。一种软件,当被安装于计算机上时,使所述计算机执行以上方法。一种用于确定多个第一训练样本的计算机系统,包括:接收多个数据样本的输入端口,该多个数据样本中的每一个数据样本包括多个特征值和对该数据样本进行分类的标签;以及处理器,该处理器通过以下方式确定该多个第一训练样本中的每一个:选择该多个数据样本的子集,使得该子集包括具有该多个第一特征值中的对应的一个或多个第一特征值的数据样本,以及基于该子集的数据样本中的每一个的标签,组合该子集的数据样本的特征值。一种用于确定多个组合的训练样本的方法,包括:接收多个第一训练样本,该多个第一训练样本中的每一个第一训练样本都是多个数据样本的子集的组合,该子集包括具有该多个特征值中的对应的一个或多个特征值的数据样本;通过以下方式确定该多个组合的训练样本中的每一个:随机选择该多个第一训练样本的子集,并且组合该子集的第一训练样本的特征值。一种软件,当被安装于计算机上时,使计算机执行以上用于确定多个组合的训练样本的方法。一种用于确定多个组合的训练样本的计算机系统,包括:接收多个第一训练样本的输入端口,该多个第一训练样本中的每一个都是多个数据样本的子集的组合,该子集包括具有多个特征值中的对应一个或多个特征值的数据样本;以及处理器,该处理器通过以下方式确定该多个组合的训练样本中的每一个:随机选择该多个第一训练样本的子集,并且组合该子集的第一训练样本的特征值。附图说明图1例示了在独立数据库上存储个体的数据的数据聚合器的现有技术情境。将参照以下附图描述示例:图2例示了用于从分布式数据学习的计算机系统200。图3例示了要被融合的两个数据集。图4例示了用于从图3的数据集之一的数据样本确定训练样本的方法。图5例示了用于从多个训练样本确定多个组合的训练样本的方法。图6例示了用于逻辑回归的算法。图7例示了用于对分块观测采样的算法。图8例示了用于数据融合和学习的算法。具体实施方式图2例示了用于通过从多个数据样本确定多个训练样本而从分布式数据学习的计算机系统200。计算机系统200可以是移动电话,并包括连接到程序存储器204、数据存储器206、通信端口208和用户端口210的处理器202。程序存储器204为非暂态计算机可读介质,诸如硬盘驱动器、固态盘或CD-ROM。软件,即,存储在程序存储器204上的可执行程序,使处理器202执行图3中的方法,即,处理器402通过选择多个数据样本的子集使得该子集包括具有对应特征值的数据样本来确定多个训练样本中的每一个。处理器202然后组合所选数据样本的特征值以确定该训练样本。在一个示例中,将一个数据集存储于数据存储器206上。然后可以将第二数据集和其他数据集存储于类似于计算机系统200的其他计算机系统上。在一些示例中,所有数据集都存储于数据存储器206上或没有数据集存储于数据存储器206上。数据集(诸如分布式散列表(DHT))可以存储于云存储装置上。处理器202可以在数据存储器206(诸如R本文档来自技高网...
从分布式数据学习

【技术保护点】
一种用于从多个第一数据样本确定多个第一训练样本的计算机实现的方法,所述多个第一数据样本中的每一个包括多个第一特征值和对该第一数据样本进行分类的第一标签,所述方法包括:通过以下方式确定所述多个第一训练样本中的每一个:选择所述多个第一数据样本的第一子集,使得第一子集包括具有所述多个第一特征值中的对应的一个或多个第一特征值的数据样本,并且基于第一子集的第一数据样本中的每一个的第一标签,组合第一子集的所述数据样本的第一特征值。

【技术特征摘要】
【国外来华专利技术】2015.02.13 AU 20159004631.一种用于从多个第一数据样本确定多个第一训练样本的计算机实现的方法,所述多个第一数据样本中的每一个包括多个第一特征值和对该第一数据样本进行分类的第一标签,所述方法包括:通过以下方式确定所述多个第一训练样本中的每一个:选择所述多个第一数据样本的第一子集,使得第一子集包括具有所述多个第一特征值中的对应的一个或多个第一特征值的数据样本,并且基于第一子集的第一数据样本中的每一个的第一标签,组合第一子集的所述数据样本的第一特征值。2.根据权利要求1所述的方法,其中所述多个第一数据样本是第一数据集的数据样本,并且所述多个第一特征值中的所述对应的一个或多个第一特征值也是第二数据集的多个第二数据样本的第二子集的对应的特征值。3.根据权利要求1或2所述的方法,还包括:组合所述多个第一训练样本中的两个或更多个第一训练样本,以由此确定组合的训练样本。4.根据权利要求3所述的方法,其中组合所述多个第一训练样本中的两个或更多个第一训练样本包括将所述多个第一训练样本中的所述两个或更多个第一训练样本加起来。5.根据前述权利要求中的任一项所述的方法,其中选择第一子集包括选择所述多个第一数据样本中的具有所述多个特征值中的对应的一个或多个特征值的全部第一数据样本。6.根据前述权利要求中的任一项所述的方法,其中选择所述多个第一数据样本的第一子集包括选择所述多个第一数据样本的第一子集,以使得第一子集包括具有所述多个第一特征值中的对应的两个或更多个第一特征值的数据样本。7.根据前述权利要求中的任一项所述的方法,其中选择所述多个第一数据样本的第一子集包括选择所述多个第一数据样本的第一子集,以使得第一标签对于所述多个第一数据样本的第一子集是一致的。8.根据前述权利要求中的任一项所述的方法,其中组合所述数据样本的第一特征值包括确定第一数据样本的第一特征值之和,以使得第一训练样本的特征的特征值是所述数据样本的该特征的第一特征值之和。9.根据权利要求8所述的方法,其中确定所述和包括确定基于第一数据样本中的每一个的第一标签进行加权的加权和。10.根据前述权利要求中的任一项所述的方法,其中第一数据样本具有带符号的实数值作为第一特征值,并且第一标签是“-1”和“+1”之一。11.根据前述权利要求中的任一项所述的方法,其中选择第一子集包括选择第一子集,以使得第一子集仅包括具有所述多个第...

【专利技术属性】
技术研发人员:R·诺克G·派特锐尼
申请(专利权)人:澳大利亚国家ICT有限公司
类型:发明
国别省市:澳大利亚,AU

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1