使用随机序列嵌入的符号序列分析的计算效率制造技术

技术编号:27585874 阅读:28 留言:0更新日期:2021-03-10 10:00
提供了一种分析符号序列的方法和系统。从所有者的计算设备接收符号序列的元数据。基于所接收的元数据来生成R个随机序列的集合,并且将其发送到所述符号序列的所有者的计算设备,以便基于所述R个随机序列的集合和所述符号序列来计算特征矩阵。从所有者的计算设备接收特征矩阵。在确定特征矩阵的内积低于阈值准确度时,迭代过程返回到生成R个随机序列。在确定特征矩阵的内积等于或高于阈值准确度时,基于机器学习对特征矩阵进行分类。经分类的全局特征矩阵被发送以显示在所有者的计算设备的用户界面上。用户界面上。用户界面上。

【技术实现步骤摘要】
【国外来华专利技术】使用随机序列嵌入的符号序列分析的计算效率


[0001]本公开总体上涉及线性序列(linear sequences)的分类,并且更具体地涉及基于云的敏感数据的符号序列分析。

技术介绍

[0002]近年来,字符串分类(string classification)已发展为核心学习任务,且在许多应用(包含计算生物学、文本分类和音乐分类)中取得相当大的兴趣。字符串数据中的一个挑战涉及在序列中不存在明确的特征。如本文所使用的,特征是被观察的现象的个体可测量的特性或特性。即使利用先进的特征(characteristic)选择技术,潜在特征的维度可能仍然较高,并且难以捕获特征的顺序性质。这使得序列分类比对特征向量分类更具挑战性的任务。
[0003]因此,本领域需要解决上述问题。

技术实现思路

[0004]从第一方面来看,本专利技术提供了一种用于分析数据的计算设备,该设备包括:处理器;网络接口,其耦合到所述处理器以实现通过网络的通信;存储装置,其耦合到所述处理器;存储在所述存储设备中的分析引擎,其中所述处理器对所述分析引擎的执行将所述计算设备配置成执行动作,所述动作包括:从所述符号序列的所有者的计算设备接收所述符号序列的元数据;基于所接收的元数据来生成R个随机序列的集合;通过所述网络向所述符号序列的所有者的计算设备发送所述R个随机序列的集合,以便基于所述R个随机序列的集合和所述符号序列来计算特征矩阵;从所述符号序列的所有者的计算设备接收所述特征矩阵;在确定所述特征矩阵的内积低于阈值准确度时,返回到基于所接收的元数据生成R个随机序列的集合的步骤;在确定所述特征矩阵的内积等于或高于所述阈值准确度时:将所述特征矩阵标识为全局特征矩阵;基于机器学习对所述全局特征矩阵进行分类;以及发送所述经分类的全局特征矩阵以在所述符号序列的所有者的所述计算设备的用户界面上显示。
[0005]从另一方面来看,本专利技术提供了一种用于分析数据的方法,所述方法包括:从所述符号序列的所有者的计算设备接收所述符号序列的元数据;基于所接收的元数据来生成R个随机序列的集合;向所述符号序列的所有者的计算设备发送所述R个随机序列的集合,以便基于所述R个随机序列的集合和所述符号序列来计算特征矩阵;从所述符号序列的所有者的计算设备接收所述特征矩阵;在确定所述特征矩阵的内积低于阈值准确度时,返回到基于所接收的元数据生成R个随机序列的集合的步骤;在确定所述特征矩阵的内积等于或高于所述阈值准确度时:将所述特征矩阵标识为全局特征矩阵;基于机器学习对所述全局特征矩阵进行分类;以及发送所述经分类的全局特征矩阵以在所述符号序列的所有者的所述计算设备的用户界面上显示。
[0006]从另一方面来看,本专利技术提供了一种计算设备,包括:处理器;网络接口,其耦合到所述处理器以实现通过网络的通信;存储装置,其耦合到所述处理器;存储在所述存储设备
中的分析引擎,其中所述处理器对所述分析引擎的执行将所述计算设备配置成执行动作,所述动作包括:从符号序列的所有者的计算设备接收对于数据分析的请求;创建表示所述符号序列的所有者的所述计算设备的符号序列的字母表的概率分布的人工元数据;基于所述人工元数据生成R个随机序列的集合;通过所述网络向所述符号序列拥有者的所述计算设备发送所述R个随机序列的集合,以便基于所述R个随机序列的集合和所述符号序列来计算特征矩阵;从所述符号序列的所有者的计算设备接收所述特征矩阵;在确定所述特征矩阵的内积低于阈值准确度时,返回到基于所述人工元数据生成R个随机序列的集合的步骤;在确定所述特征矩阵的内积等于或高于所述阈值准确度时:将所述特征矩阵标识为全局特征矩阵;基于机器学习对所述全局特征矩阵进行分类;以及发送所述经分类的全局特征矩阵以在所述符号序列的所有者的所述计算设备的用户界面上显示。
[0007]从另一方面来看,本专利技术提供了一种用于分析数据的计算机程序产品,该计算机程序产品包括计算机可读存储媒质,该计算机可读存储媒质可由处理电路读取并且存储用于由处理电路执行以便执行用于执行本专利技术的步骤的方法的指令。
[0008]从另一方面来看,本专利技术提供了一种存储在计算机可读媒质上并且可加载到数字计算机的内部存储器中的计算机程序,所述计算机程序包括软件代码部分,当所述程序在计算机上运行时,所述软件代码部分用于执行本专利技术的步骤。
[0009]一种计算设备,包括:处理器;网络接口,其耦合到所述处理器以实现通过网络的通信;耦合到所述处理器的存储设备;存储在所述存储设备中的分析引擎,其中所述处理器对所述分析引擎的执行将所述计算设备配置成执行动作,所述动作包括:从符号序列的所有者的计算设备接收对于数据分析的请求;创建表示所述符号序列的所有者的所述计算设备的符号序列的字母表的概率分布的人工元数据;基于所述人工元数据生成R个随机序列的集合;通过所述网络向所述符号序列拥有者的所述计算设备发送所述R个随机序列的集合,以便基于所述R个随机序列的集合和所述符号序列来计算特征矩阵;从所述符号序列的所有者的计算设备接收所述特征矩阵;在确定所述特征矩阵的内积低于阈值准确度时,返回到前一步骤;在确定所述特征矩阵的内积等于或高于所述阈值准确度时:将所述特征矩阵标识为全局特征矩阵;基于机器学习对所述全局特征矩阵进行分类;以及发送所述经分类的全局特征矩阵以在所述符号序列的所有者的所述计算设备的用户界面上显示。
[0010]根据各实施例,提供了一种用于在保持数据的隐私的同时分析符号序列的计算设备、非瞬态计算机可读存储介质和方法。从数据所有者的计算设备接收符号序列的元数据。基于所接收的元数据生成R个随机序列的集合。R个随机序列的集合通过网络被发送到数据拥有者的计算设备,用于基于R个随机序列的集合和符号序列来计算特征矩阵。从符号序列的数据所有者的计算设备接收特征矩阵。在确定特征矩阵的内积低于阈值准确度时,该过程迭代回到基于所接收的元数据生成R个随机序列的集合。在确定特征矩阵的内积等于或高于阈值准确度时,将特征矩阵识别为全局特征矩阵。全局特征矩阵基于机器学习来分类。分类的全局特征矩阵被发送以显示在所有者的计算设备的用户界面上。
[0011]根据其他实施例,提供了一种用于在保持数据的隐私的同时分析符号序列的计算设备、非瞬态计算机可读存储介质和方法。从符号序列的所有者的计算设备接收对于数据分析的请求。创建人工元数据,其表示符号序列的所有者的计算设备的符号序列的字母表的概率分布。基于人工元数据生成R个随机序列的集合。R个随机序列的集合通过网络被发
送到符号序列所有者的计算设备,以基于R个随机序列的集合和符号序列来计算特征矩阵。从符号序列的所有者的计算设备接收特征矩阵。在确定特征矩阵低于阈值准确度时,该过程迭代回到基于人工元数据生成R个随机序列的集合。在确定特征矩阵等于或高于阈值准确度时,特征矩阵被标识为全局特征矩阵并且基于机器学习来分类。发送经分类的全局特征矩阵以显示在符号序列的所有者的计算设备的用户界面上。
[0012]这些和其他特征将从以下结合附图阅读的对其说明性实施例的详细说明中变得清楚。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于分析数据的计算设备,所述设备包括:处理器;网络接口,其耦合到所述处理器以实现通过网络的通信;存储装置,其耦合到所述处理器;一个分析引擎,所述分析引擎存储在所述存储装置中,其中,所述处理器对所述分析引擎的执行将所述计算装置配置成用于执行多个动作,这些动作包括:a)从所述符号序列的所有者的计算设备接收所述符号序列的元数据;b)基于所接收的元数据生成R个随机序列的集合;c)通过所述网络向所述符号序列的所述所有者的所述计算设备发送所述R个随机序列的集合,以基于所述R个随机序列的集合和所述符号序列来计算特征矩阵;d)从所述符号序列的所述所有者的所述计算设备接收所述特征矩阵;e)在确定特征矩阵的内积低于阈值精度时,返回步骤b;f)在确定所述特征矩阵的内积等于或高于所述阈值准确度时:将所述特征矩阵标识为全局特征矩阵;基于机器学习对所述全局特征矩阵进行分类;以及发送所述经分类的全局特征矩阵以在所述符号序列的所述所有者的所述计算设备的用户界面上显示。2.根据权利要求1所述的计算设备,其中,所述元数据包括所述符号序列的字母表的概率分布。3.根据权利要求1所述的计算设备,其中,所述R个随机序列的集合基于所述序列字母表的所述概率分布。4.根据权利要求2或3所述的计算设备,其中,每个随机序列的长度D是从Dmin到Dmax,其中,Dmin是&gt;1并且Dmax&lt;20。5.根据以上权利要求中任一项所述的计算设备,其中:基于所接收的元数据来生成所述R个随机序列的集合包括:对于所述R个随机序列中的每一个随机序列:均匀地对所述随机序列的长度D进行采样,以减小将由所述处理器处理的数据量;并且发送所述R个随机序列的集合由所述随机序列的采样长度D组成。6.根据以上权利要求中任一项所述的计算设备,其中,所述全局特征矩阵的所述分类包括以下各项中的至少一项:分类、聚类和异常检测。7.根据以上权利要求中任一项所述的计算设备,其中,所述符号序列保持对所述分析引擎的所述计算设备是私有的。8.根据以上权利要求中任一项所述的计算设备,其中所述全局特征矩阵维持内核的正定性而不引入对角线主导内核矩阵。9.根据以上权利要求中任一项所述的计算设备,其中,所述全局特征矩阵的所述分类具有相对于训练样本的长度和数量呈线性的机器学习训练成本。10.根据以上...

【专利技术属性】
技术研发人员:吴凌飞许坤陈品谕陈家佑
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1