文本排序匹配方法、系统、装置及存储介质制造方法及图纸

技术编号：35261323 阅读：16 留言：0更新日期：2022-10-19 10:20

本公开涉及智能语义技术领域，提供了一种文本排序匹配方法、系统、装置及存储介质。该方法包括：将多个文本与其分别对应的分类标识组成的作为训练样本作为语义编码模型的输入单元；将该输入单元输入到语义编码模型，选择间隔的交叉熵损失函数对该语义编码模型进行优化与调整；将查询文本和训练样本同时输入该语义编码模型，输出查询文本语义向量和训练样本语义向量，计算查询文本语义向量与训练样本各语义向量的所有余弦距离，该余弦距离的大小用于表征查询文本的语义编码相似度，完成文本的排序匹配。本公开能够实现类内差距小于类间差距，无需负采样的同时保证较高的时效性，提高了语义排序匹配的精准度。了语义排序匹配的精准度。了语义排序匹配的精准度。

全部详细技术资料下载

【技术实现步骤摘要】
文本排序匹配方法、系统、装置及存储介质

[0001]本公开涉及智能语义
，尤其涉及一种文本排序匹配方法、系统、装置及存储介质。

技术介绍

[0002]文本语义匹配场景下，匹配的核心其实是评价两段文本之间的相似度，常被用于搜索、检索式问答等场景。
[0003]深度语义匹配一般有两种做法：a.基于表示的匹配方法：对句子编码时是相互独立的，编码层分别将两段文本转换为语义向量，然后计算它们之间的相似度。b.基于交互的匹配方法：在表示型模型的基础上增加两个平行网络之间的交互层，从而能够提取到句子对之间更加丰富的交互信息。
[0004]两种方法的目的都是最大化正样本之间的相关性，抑制负样本之间的相关性。但二者都有一个很严重的缺陷：负样本采样严重不足以及训练时间过长，导致效果提升非常慢。

技术实现思路

[0005]有鉴于此，本公开实施例提供了一种文本排序匹配方法、系统、装置及计算机程序可读存储介质，以解决现有技术中的负样本采样严重不足导致的匹配效果差、采样的负样本经过训练的时间过长等导致文本排序匹配效率低、速度慢等问题。
[0006]本公开实施例的第一方面，提供了一种文本排序匹配方法，包括以下步骤：
[0007]训练样本准备：将多个文本与其分别对应的分类标识组成的向量构成训练样本，作为语义编码模型的输入单元；
[0008]训练语义编码模型：将该输入单元输入到语义编码模型；选择间隔的交叉熵损失函数对该语义编码模型进行优化与调整，该语义编码模型输出单元输出语义向量；
>[0009]文本的排序匹配：将查询文本和训练样本同时输入该语义编码模型，输出查询文本语义向量和训练样本语义向量，计算查询文本语义向量与训练样本各语义向量的所有余弦距离，该余弦距离的大小用于表征查询文本的语义编码相似度，完成文本的排序匹配。
[0010]本公开实施例的第二方面，提供了一种文本排序匹配方法，包括：
[0011]训练样本准备：将多个文本与其分别对应的分类标识组成的向量构成训练样本，作为语义编码模型的输入单元；
[0012]训练语义编码模型：将该输入单元输入到语义编码模型，该语义编码模型输出单元输出语义向量；
[0013]选择间隔的交叉熵损失函数：AM
‑
Softmax(Additive Margin Softmax)对该语义编码模型进行优化与调整；
[0014]鲁棒性设计：语义编码模型的训练过程中或者训练结束后，采用监督聚类算法对错误的分类标识进行兼容，完成语义编码模型的鲁棒性设计，监督聚类算法为学习向量量
化Learning vector Quantization(LVQ)的原型聚类，LVQ的训练过程为：
[0015]通过该语义编码模型获得原型向量，进行原型向量的随机初始化；计算原型向量的全局质心，计算目标特征向量(训练样本中的一个文本语义向量)与全局质心之间的最短空间向量距离；如果目标特征向量与原型向量的全局质心属于同一分类标识，采取拉拢式的迭代计算，直到迭代收敛；如果目标特征向量与原型向量的全局质心属于不同的分类标识，采取排斥式的迭代计算，直到迭代收敛。
[0016]文本的排序匹配：将查询文本和训练样本同时输入该语义编码模型，输出查询文本语义向量和训练样本语义向量，计算查询文本语义向量与训练样本各语义向量的所有余弦距离，该余弦距离的大小用于表征查询文本的语义编码相似度，完成文本的排序匹配。
[0017]本公开实施例的第三方面，提供了一种系统，包括：包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。
[0018]本公开实施例的第四方面，提供了一种装置，包括：包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。
[0019]本公开实施例的第五方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。
[0020]本公开实施例与现有技术相比存在的有益效果是：通过将具有分类标识的文本输入到语义编码模型中，特别是选择大间隔的交叉熵损失函数对语义编码模型进行优化与调整，能够保证类间距离大于类内距离，提高了语义排序匹配和输出的精准度，不需要采集大量的负采样样本作为语义编码模型的训练样本，减少工作量的同时，还能够保证较高的时效性；此外，通过在预测阶段计算查询文本语义向量与训练样本各语义向量的所有余弦距离，能够较快的完成文本的语义排序匹配。
附图说明
[0021]为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。
[0022]图1是本公开实施例的应用场景的场景示意图；
[0023]图2是本公开实施例提供的一种文本排序匹配方法的流程示意图；
[0024]图3是本公开实施例提供的另一种文本排序匹配方法的流程示意图；
[0025]图4是本公开实施例提供的一种学习向量量化Learning vector Quantization(LVQ)的监督训练过程的流程示意图；
[0026]图5是本公开实施例提供的一种系统的结构示意图。
具体实施方式
[0027]本专利技术实施例能够解决现有技术中存在的相关问题，具体参见下文描述。
[0028]以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具
体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。
[0029]下面将结合附图详细说明根据本公开实施例的一种文本排序匹配方法和装置。
[0030]图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括终端设备1、2和3、服务器4、网络5。
[0031]终端设备1、2和3可以是硬件，也可以是软件。当终端设备1、2和3为硬件时，其可以是具有显示屏且支持与服务器4通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等；当终端设备1、2和3为软件时，其可以安装在如上所述的电子设备中。终端设备1、2和3可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本公开实施例对此不作限制。进一步地，终端设备1、2和3上可以安装有各种应用，例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
[0032]服务器4可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本排序匹配方法，其特征在于，包括：将多个文本与其分别对应的分类标识组成的向量构成训练样本；将训练样本组成的训练集输入到语义编码模型，选择间隔的交叉熵损失函数对所述语义编码模型进行优化与调整，以便所述语义编码模型输出单元输出语义向量；将查询文本和训练样本同时输入所述语义编码模型，输出查询文本语义向量和训练样本语义向量，计算查询文本语义向量与每个训练样本语义向量之间的余弦距离，所述余弦距离的大小用于表征查询文本的语义编码相似度，基于所述语义编码相似度对文本进行排序匹配。2.根据权利要求1所述的文本排序匹配方法，其特征在于，语义编码模型的训练和预测过程中，选择间隔的交叉熵损失函数为：带有加性间隔的交叉熵损失函数：AM
‑
Softmax或者大角度间隔的交叉熵损失函数A
‑
Softmax或者AAM
‑
Softmax。3.根据权利要求2所述的文本排序匹配方法，其特征在于，语义编码模型的训练和预测过程中，选择间隔的交叉熵损失函数为：带有加性间隔的交叉熵损失函数：AM
‑
Softmax，公式为：其中，θ
i
代表输出的第i个特征向量Ri和分类的类权重特征向量Rt的夹角，θ
t
代表类权重特征向量Rt的向量角，m代表加性间隔，s代表伸缩因子。4.根据权利要求1所述的文本排序匹配方法，其特征在于，语义编码模型的训练过程中或者训练结束后，采用监督聚类算法对错误的分类标识进行兼容，完成语义编码模型的鲁棒性设计。5.根据权利要求4所述的文本排序匹配方法，其特征在于，所述监督聚类算法为学习向量量化：Learning vector Quantization的原型聚类，LVQ的训练过程为：通过所述语义编码模型获得原型向量，进行原型向量的随机初始化；计算...

【专利技术属性】
技术研发人员：宁时贤，
申请(专利权)人：深圳集智数字科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人