使用深度多项式网络对加密数据的分布式和协作分析制造技术

技术编号:31081287 阅读:18 留言:0更新日期:2021-12-01 11:58
本公开涉及云

【技术实现步骤摘要】
【国外来华专利技术】使用深度多项式网络对加密数据的分布式和协作分析
[0001]专利技术人
[0002]张世雄
[0003]董宇
[0004]交叉引用
[0005]本PCT国际专利申请基于2019年7月8日提交的、题为“Distributed and Collaborative Analytics of Encrypted Data Using Deep Polynomial Networks(使用深度多项式网络对加密数据的分布式和协作分析)”的美国专利申请No.16/505,368,并要求该美国专利申请的优先权,该美国专利申请通过引用整体并入本文。


[0006]本公开总体上涉及数据分析,特别涉及作为实时按需服务的加密数据的语音识别。

技术介绍

[0007]对一些数据项的分析可基于更适于部署在强大且集中管理的远程后端服务器中的复杂数据处理模型(例如基于神经网络的人工智能模型)。此外,这些模型可能需要大量的努力来生成,且这些模型的开发者可倾向于集中部署,而不是将这些模型分发到本地终端设备,以避免其算法泄露。因此,这样的数据分析可作为远程按需服务来提供。例如,需要这样的数据分析服务的本地终端设备可通过通信网络向远程后端服务器发送数据项,然后在由远程后端服务器执行数据分析之后接收结果。在一些情况下,数据项可以是敏感的或机密的,且不能以未加密的形式暴露于通信网络和/或远程后端服务器。因此,对于一些安全应用,在向远程后端服务器发送数据分析服务的请求之前,可能需要在本地终端设备处对数据项进行加密。因此,部署在远程后端服务器中的数据分析模型可能需要配置成不必访问任何解密密钥就能处理加密数据项。可开发用于这些数据项的特殊数据加密/解密算法,该算法可以在加密输入数据和未加密输入数据之间提供数据分析模型的近乎不变性,但是该算法可能非常复杂且需要大量时间来在本地终端设备中运行。因此,这样的特殊数据加密/解密算法对于要求对数据分析需求做出实时或近似实时响应的许多应用(包括但不限于会话语音识别应用)来说不切实际。

技术实现思路

[0008]本公开涉及云

本地联合或协作数据分析框架,该框架提供数据分析模型,数据分析模型在后端服务器中进行训练并托管在后端服务器中,用于处理由远程终端设备预处理和加密的数据项。数据分析模型配置成生成加密输出数据项,然后将加密输出数据项传送到本地终端设备以进行解密和后处理。该框架在不会使本地终端设备的秘密解密密钥暴露于后端服务器以及本地终端设备和后端服务器之间的通信网络的情况下起作用。因此,除了给数据分析模型提供保护而不会遭受通过在由模型开发者控制的后端服务器中(而不是
在终端设备中)部署模式来进行剽窃之外,该框架还提供对用户数据的隐私保护。后端服务器中的加密/解密和数据分析配置成高效地处理和传送数据项,以对来自远程终端设备的数据分析请求提供实时或近似实时的系统响应。例如,可应用该框架来提供远程控制的实时按需语音识别服务。
[0009]在一种实现方式中,公开了一种用于提供远程数据分析的系统。该系统包括:通信接口;存储器,用于存储深度学习神经网络;以及电路,与通信接口和存储器通信。电路可配置成:通过通信接口从远程终端设备接收加密数据项;以加密形式使加密数据项经过深度学习神经网络正向传播(forward propagate),以获得加密输出数据项;以及通过通信接口向远程终端设备发送加密输出数据项。深度学习神经网络使用未加密训练数据进行训练,并包括互连成多个层的神经元,其中,深度学习神经网络的至少一个激活操作和至少一个池化操作被多项式化。
[0010]在上述实现方式中,远程数据分析包括远程语音识别服务。在上述任一实现方式中,加密数据项包括在远程终端设备处使用语音感知模型导出、随后在远程终端设备处加密的、预定帧持续时间的音频波形的帧的级联特征;深度学习神经网络包括声学模型,声学模型用于将由远程终端设备加密的级联特征处理成加密输出数据项;以及深度学习神经网络的加密输出数据项包括对应于电话码本的概率向量。
[0011]在上述任一实现方式中,至少一个池化操作使用缩放的平均池化来多项式化。在上述任一实现方式中,至少一个激活操作使用s型函数的三次多项式近似来多项式化。在上述任一实现方式中,加密数据项可基于远程终端设备处的公钥加密。在上述任一实现方式中,使用未加密训练数据进行训练的深度学习神经网络的至少一个模型参数子集保持未加密,以用于加密数据项的正向传播。
[0012]在上述任一实现方式中,模型参数子集包括多个权重和多个批归一化参数。在上述任一实现方式中,模型参数子集进一步包括多个卷积内核。
[0013]在上述任一实现方式中,深度学习神经网络可如下进行训练:初始训练深度学习神经网络,其中将一个模型参数集训练到第一精度;以及通过在训练数据的正向传播和反向传播(backward propagation)期间将模型参数集量化到小于第一精度的第二精度,来重新训练深度学习神经网络。
[0014]在上述任一实现方式中,通过计算第一精度的模型参数集的统计分布来确定模型参数集的量化水平,使得围绕模型参数集的更集中的值来分配更密集的量化水平。在上述任一实现方式中,第二精度的第一精度分别由模型参数集的参数比特的第一预定数量和参数比特的第二预定数量表示,其中,参数比特的第二预定数量是8。
[0015]在上述任一实现方式中,深度学习神经网络包括感知模型和跟随的声学模型。加密数据项包括从远程终端设备发送的预定帧持续时间的音频波形的加密帧。感知模型配置成将音频波形的加密帧转换成感知特征。声学模型配置成将感知特征转换成加密输出数据项,加密输出数据项包括对应于深度学习神经网络的电话码本的概率向量。
[0016]在上述任一实现方式中,深度学习神经网络包括声学模型和跟随的语言模型。加密数据项包括从远程终端设备发送的预定帧持续时间的音频波形的多个帧中的每个帧的加密感知特征。声学模型配置成将加密数据项转换成对应于电话码本的多个加密概率向量,每个加密概率向量对应于音频波形的多个帧中的一个帧。语言模型配置成将多个加密
概率向量转换成加密输出数据项,加密输出数据项包括加密文本段。
[0017]在上述任一实现方式中,深度学习神经网络包括感知模型、跟随的声学模型和跟随的语言模型。加密数据项包括从远程终端设备发送的预定帧持续时间的音频波形的多个加密帧中的每个加密帧。感知模型配置成将音频波形的多个加密帧转换成多个感知特征集。声学模型配置成将多个感知特征集转换成对应于电话码本的多个加密概率向量,每个加密概率向量对应于音频波形的多个帧中的一个帧。语言模型配置成将多个加密概率向量转换成加密输出数据项,加密输出数据项包括加密文本段。
[0018]在另一实现方式中,提供一种用于提供远程数据分析的系统。该系统包括终端设备和远程服务器。远程服务器包括:通信接口;存储器,用于存储深度学习神经网络;以及电路,与通信接口和存储器通信。终端设备和远程服务器的电路配置成:通过终端设备对数据项进行加密本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于提供远程数据分析的系统,包括:通信接口;存储器,用于存储深度学习神经网络;以及电路,与所述通信接口和所述存储器通信,并配置成:通过所述通信接口从远程终端设备接收加密数据项;以加密形式使所述加密数据项经过所述深度学习神经网络正向传播,以获得加密输出数据项;以及通过所述通信接口向所述远程终端设备发送所述加密输出数据项,其中,所述深度学习神经网络使用未加密训练数据进行训练,并包括互连成多个层的神经元,并且其中,所述深度学习神经网络的至少一个激活操作和至少一个池化操作被多项式化。2.根据权利要求1所述的系统,其中,所述远程数据分析包括远程语音识别服务。3.根据权利要求2所述的系统,其中:所述加密数据项包括在所述远程终端设备处使用语音感知模型导出、随后在所述远程终端设备处加密的、预定帧持续时间的音频波形的帧的级联特征;所述深度学习神经网络包括声学模型,所述声学模型用于将由所述远程终端设备加密的所述级联特征处理成所述加密输出数据项;以及所述深度学习神经网络的所述加密输出数据项包括对应于电话码本的概率向量。4.根据权利要求1所述的系统,其中,所述至少一个池化操作使用缩放的平均池化来多项式化。5.根据权利要求1所述的系统,其中,所述至少一个激活操作使用s型函数的三次多项式近似来多项式化。6.根据权利要求1所述的系统,其中,所述加密数据项基于所述远程终端设备处的公钥加密。7.根据权利要求6所述的系统,其中,使用未加密训练数据进行训练的所述深度学习神经网络的至少一个模型参数子集保持未加密,以用于所述加密数据项的正向传播。8.根据权利要求7所述的系统,其中,所述模型参数子集包括多个权重和多个批归一化参数。9.根据权利要求8所述的系统,其中,所述模型参数子集进一步包括多个卷积内核。10.根据权利要求1所述的系统,其中,所述深度学习神经网络如下进行训练:初始训练所述深度学习神经网络,其中将一个模型参数集训练到第一精度;以及通过在训练数据的正向传播和反向传播期间将所述模型参数集量化到小于所述第一精度的第二精度,来重新训练所述深度学习神经网络。11.根据权利要求10所述的系统,其中,通过计算所述第一精度的所述模型参数集的统计分布来确定所述模型参数集的量化水平,使得围绕所述模型参数集的更集中的值来分配更密集的量化水平。12.根据权利要求10所述的系统,其中,所述第二精度的所述第一精度分别由所述模型参数集的参数比特的第一预定数量和参数比特的第二预定数量表示,并且其中,所述参数比特的第二预定数量是8。13.根据权利要求1所述的系统,其中,所述深度学习神经网络包括感知模型和跟随的
声学模型,其中:所述加密数据项包括从所述远程终端设备发送的预定帧持续时间的音频波形的加密帧;所述感知模型配置成将音频波形的所述加密帧转换成感知特征;以及所述声学模型配置成将所述感知特征转换成所述加密输出数据项,所述加密输出数据项包括对应于所述深度学习神经网络的电话码本的概率向量。14.根据权利要求1所述的系统,其中,所述深度学习神经网络包括声学模型和跟随的语言模型,并且其中:所述加密数据项包括从所述远程终端设备发送的预定帧持续时间的音频波形的多个帧中的每个帧的加密感知特征;所述声学模型配置成将所述加密数据项转换成对应于电话码本的多个加密概率向量,每个加密概率向量对应于音频波形的所述多个帧中的一个帧;以及所述语...

【专利技术属性】
技术研发人员:张世雄俞栋
申请(专利权)人:腾讯美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1