字符编码模型的训练方法、字符匹配方法和装置制造方法及图纸

技术编号：35136834 阅读：22 留言：0更新日期：2022-10-05 10:11

本说明书实施例描述了字符编码模型的训练方法、字符匹配方法和装置。根据实施例的方法，首先获取样本训练集，然后针对各个样本训练集进行编码处理。进一步，利用各个样本训练集得到的表征向量可以计算损失函数值。最后，利用得到的损失函数值即可训练字符编码模型。由于训练模型的每一个样本训练集中包含有标准字符串、正样本字符串和负样本字符串，而且正样本字符串和标准字符串表征的对象相同，负样本字符串和标准字符串表征的对象不同。如此在利用得到的模型对字符串进行编码时，能够使表征同一对象的字符串的表征向量相似度更高，而使表征不同对象的字符串的表征向量相似度更低，从而在进行字符串匹配时能够提高字符串匹配的准确性。匹配的准确性。匹配的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
字符编码模型的训练方法、字符匹配方法和装置

[0001]本说明书一个或多个实施例涉及计算机
，尤其涉及字符编码模型的训练方法、字符匹配方法和装置。

技术介绍

[0002]字符匹配是一种文本模糊匹配的匹配方法，主要应用于人名、地名、以及组织机构等名称的匹配。
[0003]然而，由于语种、地理文化多样性等因素，指代同一事物的名称可能会存在多种拼写。比如，Muhammad、Mohammed、Mohammad都为同一个阿拉伯语人名的英文直译写法。如果不考虑这些因素，那么对于同一事物名称的不同拼写可能无法准确地实现匹配。

技术实现思路

[0004]本说明书一个或多个实施例描述了字符编码模型的训练方法、字符匹配方法和装置，能够提高字符串匹配的准确性。
[0005]根据第一方面，提供了一种字符编码模型的训练方法，包括：
[0006]获取至少两个样本训练集；其中，每一个样本训练集中包括：一个标准字符串、一个正样本字符串和一个负样本字符串；每一个样本训练集中的所述正样本字符串与所述标准字符串所表征的对象相同，所述负样本字符串与所述标准字符串所表征的对象不相同，且正样本字符串与所述标准字符串不相同；
[0007]针对每一个样本训练集进行编码处理，得到对应各个样本训练集的表征向量；
[0008]利用各个样本训练集的表征向量，计算损失函数值；
[0009]根据所述损失函数值，训练所述字符编码模型。
[0010]在一种可能的实现方式中，所述标准字符串包括：对应一个对...

【技术保护点】

【技术特征摘要】
1.字符编码模型的训练方法，包括：获取至少两个样本训练集；其中，每一个样本训练集中包括：一个标准字符串、一个正样本字符串和一个负样本字符串；每一个样本训练集中的所述正样本字符串与所述标准字符串所表征的对象相同，所述负样本字符串与所述标准字符串所表征的对象不相同，且正样本字符串与所述标准字符串不相同；针对每一个样本训练集进行编码处理，得到对应各个样本训练集的表征向量；利用各个样本训练集的表征向量，计算损失函数值；根据所述损失函数值，训练所述字符编码模型。2.根据权利要求1所述的方法，其中，所述标准字符串包括：对应一个对象的名称的字符串；所述正样本字符串包括：与所述标准字符串对应的所述对象具有同一ID，且与所述标准字符串拼写形式不同的字符串；和/或，所述负样本字符串包括：与所述标准字符串对应的所述对象具有不同ID，且与所述标准字符串拼写形式不同的字符串。3.根据权利要求1所述的方法，其中，所述针对每一个样本训练集进行编码处理得到对应各个样本训练集的表征向量，包括：针对每一个样本训练集，均执行：将当前样本训练集中的标准字符串、正样本字符串和负样本字符串进行数值编码，分别得到该当前样本训练集的对应标准字符串的标准数值向量、对应正样本字符串的正样本数值向量，以及对应负样本字符串的负样本数值向量；将当前样本训练集的标准数值向量、正样本数值向量和负样本数值向量映射到第一维度空间，分别得到该当前样本训练集的对应标准字符串的标准表征向量、对应正样本字符串的正样本表征向量，以及对应负样本字符串的负样本表征向量；其中，所述第一维度空间的维度小于所述标准数值向量、正样本数值向量和负样本数值向量中任意一个数值向量所在的维度空间的维度。4.根据权利要求1所述的方法，其中，所述标准字符串、正样本字符串和负样本字符串之间的损失函数值满足的条件包括：每一个样本训练集中正样本字符串与标准字符串的相似度大于第一相似度阈值，负样本字符串与标准字符串的相似度小于第二相似度阈值，且所述第一相似度阈值大于所述第二相似度阈值。5.根据权利要求1至4中任一所述的方法，其中，所述利用各个样本训练集的表征向量，计算损失函数值，包括：利用如下计算式，计算所述所述损失函数值：其中，L用于表征所述损失函数值，N用于表征所述样本训练集的个数，f(x
i
)用于表征第i个样本训练集中对应标准字符串的标准表征向量，用于表征第i个样本训练集中对应正样本字符串的正样本表征向量，用于表征第i个样本训练集中对应负样本字符串
的负样本表征向量，ε用于表征平衡相似性度量和相异性度量的超参数，所述相似性度量用于...

【专利技术属性】
技术研发人员：陈珺，孙清清，邹泊滔，赖伟达，郑行，王爱凌，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人