面向多任务联邦学习的文本匹配方法组成比例

技术编号：34444656 阅读：20 留言：0更新日期：2022-08-06 16:38

本发明专利技术公开了一种面向多任务联邦学习的文本匹配方法，包括：在服务器以及各客户端上构建bm25+esim模型；bm25算法用于对样本信息库进行处理，从样本信息库中召回相似度最高的k条样本信息；样本信息包括用户特征信息以及对应的推荐信息；需要推荐的目标用户所输入的文本信息与召回的k条样本信息构成样本信息对；esim模型用于对样本信息对进行处理，输出目标用户的用户特征信息在k条样本信息中的分类，就得到了文本匹配结果；该方法采用横向联邦学习，服务器通过基于多头注意力机制的图神经网络节点选择方案选择部分客户端。各客户端使用k折交叉验证切分数据集，训练后向服务器发送参数；服务器根据收到的全部参数，更新自身参数，并发送给客户端。并发送给客户端。并发送给客户端。

全部详细技术资料下载

【技术实现步骤摘要】
面向多任务联邦学习的文本匹配方法

[0001]本专利技术涉及自然语言处理中的文本匹配领域和分布式机器学习技术，具体涉及一种面向多任务联邦学习的文本匹配方法。

技术介绍

[0002]在市场的逐步发展下，市场上不断地涌现各种各样的客户端服务器分离，即(C/S)框架的服务产品，面向用户人群提供各方面的服务，但受限于人力资源、网络环境等因素，需求一种能够自动匹配目标信息并回复的系统模型。运行程序需要让系统能理解用户的特征信息或文本信息，并匹配目标信息，所使用的技术即为自然语言处理中的文本匹配模型。
[0003]在生产进入市场后，大部分服务产品在投入实际落地使用时，受影响于场景因素，逐渐偏向单个目标领域的使用需求，在内容不变的情况下，其目标信息却发生了演变，此时服务系统匹配出的目标信息与用户目标存在差异，使用户的使用体验失去了保障。如何在数量众多客户端处于多种目标领域的情况下，即面向多任务，通过模型训练和学习，提高客户端系统对信息目标匹配的准确性，已成为当前推动发展的关键。目前，文本匹配已经应用到多种领域，如：服务推荐、问答产品、输入矫正。通过对使用产品的用户特征信息进行目标匹配，有利于建立用户与服务的模型，为用户提供方便快捷的服务推荐；通过对问答产品的用户发言进行文本匹配，找到符合用户描述的目标领域，同时唤醒对应领域的问答系统，从而实现更高的用户体验。
[0004]得利于深度学习的快速发展，文本匹配也有了很大的进步。使用本地模型对信息进行文本匹配具有较高的响应速度，从而实现更快的回复，但是本地模型仅有使用该客...

【技术保护点】

【技术特征摘要】
1.一种面向多任务联邦学习的文本匹配方法，其特征在于，包括以下步骤：在服务器以及各客户端上构建由bm25算法以及esim模型构成的bm25+esim模型；所述bm25算法用于对样本信息库进行处理，从样本信息库中召回相似度最高的k条样本信息；所述样本信息包括用户特征信息以及对应的推荐信息；需要推荐的目标用户所输入的文本信息与召回的k条样本信息构成样本信息对；所述esim模型用于对样本信息对进行处理，输出目标用户的用户特征信息在k条样本信息中的分类，就得到了文本匹配结果；服务器通过节点选择方案选择部分客户端，发送最新的bm25+esim模型参数w作为所选择的客户端本地的bm25+esim模型参数w
i
；被服务器选择出的各客户端根据接收到的模型参数w
i
，训练本地模型esim，计算出梯度g
i
，利用梯度g
i
更新模型参数w
i
，并计算本地数据集的平均数据误差度d
avg，i
；各被选择出的客户端向服务器发送训练后的本地模型参数和平均数据误差度d
avg，i
；服务器根据收到的所有本地模型参数更新自身参数w；服务器将自身参数w发送给各客户端，各客户端利用参数w对本地模型参数进行更新。2.根据权利要求1所述的面向多任务联邦学习的文本匹配方法，其特征在于，所述服务器通过节点选择方案选择部分客户端，包括：1.1将服务器自身的bm25+esim模型参数和客户端本地bm25+esim模型参数分别作为和计算权重系数e
ij
：其中a为注意力机制计算函数，采用相似度函数；W表示注意力机制，表示为esim模型提取特征的转置矩阵；1.2采用softmax函数重新计算权重系数，更新后的系数为a
ij
，计算公式为：其中N
i
为由全部客户端组成的集合，e
ik
为第k个客户端的权重系数，softmax
j
表示将softmax函数应用于第j个客户端；1.3引入多头机制，通过多次训练得到多个矩阵W并计算多个系数a
ij
，通过以下公式的计算得到的结果a
ij
′
，即为客户端在多头注意力机制下的权重系数：其中K为使用注意力机制的数量，为第j个客户端在第K个注意力机制中的权重系数；1.4设定一个权重系数阈值Threshold
Min
，仅当权重系数a
ij
′
不小于阈值Threshold
Min
时，认为a
ij
′
对应的客户端具有参考价值，则将该客户端作为服务器通过节点选择方案选择出的客户端。3.根据权利要求1所述的面向多任务联邦学习的文本匹配方法，其特征在于，所述客户端上设置数据输入接口，用于获取需要推荐的目标用户的文本信息；本地数据集中的一条样本信息包含A、B两部分，其中：A是目标用户的输入的文本信息，也就是目标用户的用户特
征信息；B是用户特征信息经过esim模型的文本匹配，找到匹配度最高的样本信息，如果该样本信息...

【专利技术属性】
技术研发人员：陈梓浩，曾碧，林镇涛，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人