问答模型处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：26597797 阅读：20 留言：0更新日期：2020-12-04 21:20

本申请提供了一种问答模型处理方法、装置、计算机设备及存储介质，属于机器学习技术领域。该方法包括：获取至少一个问答模型，该至少一个问答模型与待处理的目标问答模型用于执行不同问答任务；获取多个相关参数，该相关参数用于表示一个该问答模型的神经元与该目标问答模型的神经元之间的相关性；根据该多个相关参数，确定该目标问答模型中待处理的至少一个神经元；对该至少一个神经元的参数进行更新，得到更新后的目标问答模型，该更新后的目标问答模型中该至少一个神经元的输出为零。上述方案能够确定目标问答模型中与其他问答模型之间相关性较高的神经元，通过更新这些神经元的参数，更新目标问答模型，能够提高目标问答模型的泛化性能。

全部详细技术资料下载

【技术实现步骤摘要】
问答模型处理方法、装置、计算机设备及存储介质
本申请涉及机器学习
，特别涉及一种问答模型处理方法、装置、计算机设备及存储介质。
技术介绍
在机器学习领域，不同的数据集之间的统计分布存在一定的差异，通常将分布一致的数据看作是一个领域，这些数据构成一个数据集，如对于机器问答任务，根据问题的意图不同，有关于任务的数据集、关于时间的数据集以及关于地点的数据集等。通过一个领域的数据集训练得到的模型，直接应用于另一个领域的数据集时，会导致该模型的性能下降，也即该模型的泛化性能较低。目前，通常是通过增加额外的归一化层来消除模型中神经元在不同分布上的差异，从而提升模型的泛化性能，如批归一化、层归一化以及权重归一化等。上述技术方案存在的问题是，增加归一化层需要对已有的模型结构进行改进，并且模型也需要重新训练才能提高泛化性能，提升模型的泛化性能的效率较低，无法有效的将已有模型应用到其他领域。
技术实现思路
本申请实施例提供了一种问答模型处理方法、装置、计算机设备及存储介质，能够确定目标问答模型中与其他问答模型之间相关性较高的神经元，也即泛化能力较好的神经元，而泛化能力较差的神经元即为目标问答模型中需要进行处理的神经元，通过更新泛化能力差的神经元的参数，使得在更新后的目标问答模型中这些神经元的输出为零，从而能够提高目标问答模型的泛化性能。所述技术方案如下：一方面，提供了一种问答模型处理方法，方法包括：获取至少一个问答模型，所述至少一个问答模型与待处理的目标问答模型用于执行不同问答任...

【技术保护点】
1.一种问答模型处理方法，其特征在于，所述方法包括：/n获取至少一个问答模型，所述至少一个问答模型与待处理的目标问答模型用于执行不同问答任务；/n获取多个相关参数，所述相关参数用于表示一个所述问答模型的神经元与所述目标问答模型的神经元之间的相关性；/n根据所述多个相关参数，确定所述目标问答模型中待处理的至少一个神经元；/n对所述至少一个神经元的参数进行更新，得到更新后的目标问答模型，所述更新后的目标问答模型中所述至少一个神经元的输出为零。/n

【技术特征摘要】
1.一种问答模型处理方法，其特征在于，所述方法包括：
获取至少一个问答模型，所述至少一个问答模型与待处理的目标问答模型用于执行不同问答任务；
获取多个相关参数，所述相关参数用于表示一个所述问答模型的神经元与所述目标问答模型的神经元之间的相关性；
根据所述多个相关参数，确定所述目标问答模型中待处理的至少一个神经元；
对所述至少一个神经元的参数进行更新，得到更新后的目标问答模型，所述更新后的目标问答模型中所述至少一个神经元的输出为零。

2.根据权利要求1所述的方法，其特征在于，所述获取多个相关参数，包括：
从所述目标问答模型包括的多个神经网络层中，确定待处理的目标网络层，所述目标网络层包括至少两个神经元；
分别获取所述至少两个神经元与所述至少一个问答模型中对应网络层包括的神经元之间的相关参数，得到多个相关参数，一个相关参数对应一对神经元。

3.根据权利要求2所述的方法，其特征在于，所述分别获取所述至少两个神经元与所述至少一个问答模型中对应网络层包括的神经元之间的相关参数，得到多个相关参数，包括：
将所述至少两神经元中的任一神经元作为第一神经元，确定所述第一神经元的第一神经元参数；
将所述至少一个问答模型中对应网络层包括的任一神经元作为第二神经元，确定所述第二神经元的第二神经元参数；
将所述第一神经元参数与所述第二神经元参数之间的皮尔逊线性相关系数，确定为所述第一神经元与所述第二神经元之间的相关参数。

4.根据权利要求3所述的方法，其特征在于，所述将所述至少两神经元中的任一神经元作为第一神经元，确定所述第一神经元的第一神经元参数，包括：
将所述至少两个神经元中的任一神经元作为第一神经元，获取所述第一神经元的权重向量和偏差标量；
根据所述权重向量和所述偏差标量，确定所述第一神经元的第一神经元参数。

5.根据权利要求1所述的方法，其特征在于，所述获取多个相关参数，包括：
从所述目标问答模型包括的多个神经网络层中，确定待处理的目标网络层，所述目标网络层包括至少两个神经元；
根据所述至少两个神经元，确定第一激活矩阵，所述第一激活矩阵用于指示所述目标问答模型在对目标样本数据处理时所述至少两个神经元的输出；
根据所述至少一个问答模型和所述目标样本数据，确定第二激活矩阵，所述第二激活矩阵由所述至少一个问答模型对应的至少一个激活矩阵拼接得到，一个激活矩阵用于指示一个问答模型在对所述目标样本数据处理时与所述目标网络层对应的网络层的输出；
根据所述第一激活矩阵和所述第二激活矩阵进行奇异向量正则相关分析，获取多个相关参数。

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一激活矩阵和所述第二激活矩阵进行奇异向量正则相关分析，获取多个相关参数，包括：
对所述第一激活矩阵和所述第二激活矩阵进行奇异值分解，得到第一特征空间和第二特征空间；
对所述第一特征空间和所述第二特征空间进行正则相关分析，得到第三特征空间和第四特征空间，所述正则相关分析用于从所述第一特征空间和所述第二特征空间中确定两个线性映射矩阵，将所述两个线性映射矩阵分别映射至所述第三特征空间和所述第四特征空间，使得所述第三特征空间和所述第四特征空间对应的特征矩阵之间的相关性最大；
根据所述第三特征空间和所述第四特征空间，确定多个相关参数。

7.根据权利要求6所述的方...

【专利技术属性】
技术研发人员：曹雨，闭玮，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人