神经网络内部表示信息量确定方法、装置、设备、介质制造方法及图纸

技术编号:24518088 阅读:18 留言:0更新日期:2020-06-17 06:58
本公开提供了一种神经网络内部表示信息量确定方法、装置、设备、介质。所述神经网络内部表示信息量确定方法包括:利用所述神经网络对输入文本向量进行处理,并提取所述神经网络中的特征处理层生成的内部表示;利用探针解码器对目标文本向量以及所述内部表示进行拟合处理,得到概率值,其中,所述概率值表示由所述内部表示映射成所述目标文本向量的概率;基于所述概率值确定所述内部表示相对于所述目标文本向量的信息量。

Determination method, device, equipment and medium of information quantity of internal representation of neural network

【技术实现步骤摘要】
神经网络内部表示信息量确定方法、装置、设备、介质
本公开涉及自然语言处理
,更具体地,涉及一种神经网络内部表示信息量确定方法、装置、设备、介质。
技术介绍
神经网络模型通过神经元之间的交互操作将输入信息编码映射到输出。在神经网络模型中,随着任务难度的增加,网络结构的复杂性随之增加,此外,完全相同的网络模块也存在被叠加多次的情形。目前,无法量化描述神经网络中各个网络模块所学到的信息,也即无法明确它们各自对于输出起到了怎样的作用,这限制了对于神经网络处理过程的深入理解。
技术实现思路
本公开提供一种神经网络内部表示信息量确定方法、装置、设备、介质,用于确定神经网络中的特征处理层生成的内部表示的信息量。根据本公开的一方面,提供了一种神经网络内部表示信息量确定方法,包括:利用所述神经网络对输入文本向量进行处理,并提取所述神经网络中的特征处理层生成的内部表示;利用探针解码器对目标文本向量以及所述内部表示进行拟合处理,得到概率值,其中,所述概率值表示由所述内部表示映射成所述目标文本向量的概率;以及基于所述概率值确定所述内部表示相对于所述目标文本向量的信息量。根据本公开的一些实施例,所述探针解码器包括自关注处理层、编码-解码注意力处理层和全连接处理层。根据本公开的一些实施例,所述神经网络是机器翻译神经网络,所述机器翻译神经网络包括编码器网络和解码器网络,所述解码器网络包括至少一个解码器,所述解码器包括自关注处理层、编码-解码注意力处理层和全连接处理层,其中,所述特征处理层是属于所述解码器网络中的处理层。根据本公开的一些实施例,所述基于所述概率值确定所述内部表示相对于所述目标文本向量的信息量包括:基于所述概率值计算用于表征所述信息量的负对数似然相似度。根据本公开的一些实施例,所述目标文本向量是所述输入文本向量的翻译文本向量,所述方法还包括:基于所述内部表示相对于所述目标文本向量的信息量,改变所述机器翻译神经网络的网络结构。根据本公开的一些实施例,所述全连接处理层包括加和归一化层和前馈层,其中,所述改变所述机器翻译神经网络的网络结构包括:确定所述全连接处理层的内部表示相对于所述目标文本向量的第一信息量,并分别确定所述全连接处理层中的所述加和归一化层和所述前馈层的内部表示相对于所述目标文本向量的第二信息量和第三信息量;基于所述第一信息量、第二信息量和第三信息量,确定删除所述全连接处理层中的至少一部分。根据本公开的一些实施例,所述目标文本向量是以下中的一种:所述输入文本向量;所述输入文本向量的翻译文本向量,其中,所述输入文本向量对应于第一语言,所述翻译文本向量对应于不同于所述第一语言的第二语言。根据本公开的另一方面,还提供了一种神经网络内部表示信息量确定装置,包括:内部表示单元,配置成利用所述神经网络对输入文本向量进行处理,并提取所述神经网络中的特征处理层生成的内部表示;概率单元,配置成利用探针解码器对目标文本向量以及所述内部表示进行拟合处理,得到概率值,其中,所述概率值表示由所述内部表示映射成所述目标文本向量的概率;以及信息量计算单元,配置成基于所述概率值确定所述内部表示相对于所述目标文本向量的信息量。根据本公开的一些实施例,所述探针解码器包括自关注处理层、编码-解码注意力处理层和全连接处理层。根据本公开的一些实施例,所述神经网络是机器翻译神经网络,所述机器翻译神经网络包括编码器网络和解码器网络,所述解码器网络包括至少一个解码器,所述解码器包括自关注处理层、编码-解码注意力处理层和全连接处理层,其中,所述特征处理层是属于所述解码器网络中的处理层。根据本公开的一些实施例,所述信息量计算单元配置成:基于所述概率值计算用于表征所述信息量的负对数似然相似度。根据本公开的一些实施例,所述目标文本向量是所述输入文本向量的翻译文本向量,所述装置还包括改进单元,配置成:基于所述内部表示相对于所述目标文本向量的信息量,改变所述机器翻译神经网络的网络结构,其中,所述全连接处理层包括加和归一化层和前馈层,所述改进单元配置成:确定所述全连接处理层的内部表示相对于所述目标文本向量的第一信息量,并分别确定所述全连接处理层中的所述加和归一化层和所述前馈层的内部表示相对于所述目标文本向量的第二信息量和第三信息量;基于所述第一信息量、第二信息量和第三信息量,确定删除所述全连接处理层中的至少一部分。根据本公开的一些实施例,所述目标文本向量是以下中的一种:所述输入文本向量;所述输入文本向量的翻译文本向量,其中,所述输入文本向量对应于第一语言,所述翻译文本向量对应于不同于所述第一语言的第二语言。根据本公开的又一方面,还提供了一种神经网络内部表示信息量确定设备,包括:处理器;存储器,其中,所述存储器中存储有计算机可读代码,所述计算机可读代码当由所述处理器运行时,执行如上所述的神经网络内部表示信息量确定方法。根据本公开的又一方面,还提供了一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行如上所述的神经网络内部表示信息量确定方法。利用本公开提供的神经网络内部表示信息量确定方法,能够利用探针解码器通过对目标文本向量以及神经网络中的特征处理层生成的内部表示进行拟合处理,得到概率值,并基于所述概率值来确定内部表示相对于目标文本向量的信息量。所述确定的信息量能够用于分析神经网络中各个网络模块基于输入的向量所学到的信息,并进一步获得神经网络中各个模块之间信息传递过程。附图说明为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了根据本公开实施例的神经网络内部表示信息量确定方法的流程示意图;图2示出了根据本公开实施例的探针解码器的示意图;图3A示出了根据本公开实施例的翻译网络的示意性框图;图3B示出了根据本公开实施例的翻译网络的网络结构图;图3C示出了根据本公开实施例的翻译网络中的解码器的示意图;图4示出了根据本公开实施例的全连接处理层的信息量变化示意图;图5示出了根据本公开实施例的相对于输入文本向量的信息量的示意图;图6示出了根据本公开实施例的相对于翻译文本向量的信息量的示意图;图7示出了根据本公开实施例的神经网络内部表示信息量确定装置的示意性框图;图8示出了根据本公开实施例的神经网络内部表示信息量确定设备的示意性框图;图9示出了根据本公开实施例的示例性计算设备的架构的示意图;图10示出了根据本公开实施例的计算机存储介质的示意图。具体实施方式下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本公开一部分的实施例,而不是全部的实施例。基于本文档来自技高网...

【技术保护点】
1.一种神经网络内部表示信息量确定方法,包括:/n利用所述神经网络对输入文本向量进行处理,并提取所述神经网络中的特征处理层生成的内部表示;/n利用探针解码器对目标文本向量以及所述内部表示进行拟合处理,得到概率值,其中,所述概率值表示由所述内部表示映射成所述目标文本向量的概率;以及/n基于所述概率值确定所述内部表示相对于所述目标文本向量的信息量。/n

【技术特征摘要】
1.一种神经网络内部表示信息量确定方法,包括:
利用所述神经网络对输入文本向量进行处理,并提取所述神经网络中的特征处理层生成的内部表示;
利用探针解码器对目标文本向量以及所述内部表示进行拟合处理,得到概率值,其中,所述概率值表示由所述内部表示映射成所述目标文本向量的概率;以及
基于所述概率值确定所述内部表示相对于所述目标文本向量的信息量。


2.根据权利要求1所述的方法,其中,所述探针解码器包括自关注处理层、编码-解码注意力处理层和全连接处理层。


3.根据权利要求1所述的方法,其中,所述神经网络是机器翻译神经网络,所述机器翻译神经网络包括编码器网络和解码器网络,所述解码器网络包括至少一个解码器,所述解码器包括自关注处理层、编码-解码注意力处理层和全连接处理层,
其中,所述特征处理层是属于所述解码器网络中的处理层。


4.根据权利要求1所述的方法,其中,所述基于所述概率值确定所述内部表示相对于所述目标文本向量的信息量包括:
基于所述概率值计算用于表征所述信息量的负对数似然相似度。


5.根据权利要求3所述的方法,其中,所述目标文本向量是所述输入文本向量的翻译文本向量,所述方法还包括:
基于所述内部表示相对于所述目标文本向量的信息量,改变所述机器翻译神经网络的网络结构。


6.根据权利要求5所述的方法,其中,所述全连接处理层包括加和归一化层和前馈层,其中,所述改变所述机器翻译神经网络的网络结构包括:
确定所述全连接处理层的内部表示相对于所述目标文本向量的第一信息量,并分别确定所述全连接处理层中的所述加和归一化层和所述前馈层的内部表示相对于所述目标文本向量的第二信息量和第三信息量;
基于所述第一信息量、第二信息量和第三信息量,确定删除所述全连接处理层中的至少一部分。


7.根据权利要求3所述的方法,其中,所述目标文本向量是以下中的一种:
所述输入文本向量;
所述输入文本向量的翻译文本向量,其中,所述输入文本向量对应于第一语言,所述翻译文本向量对应于不同于所述第一语言的第二语言。


8.一种神经网络内部表示信息量确定装置,包括:
内部表示单元,配置成利用所述神经网络对输入文本向量进行处理,并提取所述神经网络中的特征处理层生成的内部表示;
概率单元,...

【专利技术属性】
技术研发人员:王龙跃杨依林史树明涂兆鹏
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1