字符编码模型的训练方法、字符匹配方法和装置制造方法及图纸

技术编号:35136834 阅读:22 留言:0更新日期:2022-10-05 10:11
本说明书实施例描述了字符编码模型的训练方法、字符匹配方法和装置。根据实施例的方法,首先获取样本训练集,然后针对各个样本训练集进行编码处理。进一步,利用各个样本训练集得到的表征向量可以计算损失函数值。最后,利用得到的损失函数值即可训练字符编码模型。由于训练模型的每一个样本训练集中包含有标准字符串、正样本字符串和负样本字符串,而且正样本字符串和标准字符串表征的对象相同,负样本字符串和标准字符串表征的对象不同。如此在利用得到的模型对字符串进行编码时,能够使表征同一对象的字符串的表征向量相似度更高,而使表征不同对象的字符串的表征向量相似度更低,从而在进行字符串匹配时能够提高字符串匹配的准确性。匹配的准确性。匹配的准确性。

【技术实现步骤摘要】
字符编码模型的训练方法、字符匹配方法和装置


[0001]本说明书一个或多个实施例涉及计算机
,尤其涉及字符编码模型的训练方法、字符匹配方法和装置。

技术介绍

[0002]字符匹配是一种文本模糊匹配的匹配方法,主要应用于人名、地名、以及组织机构等名称的匹配。
[0003]然而,由于语种、地理文化多样性等因素,指代同一事物的名称可能会存在多种拼写。比如,Muhammad、Mohammed、Mohammad都为同一个阿拉伯语人名的英文直译写法。如果不考虑这些因素,那么对于同一事物名称的不同拼写可能无法准确地实现匹配。

技术实现思路

[0004]本说明书一个或多个实施例描述了字符编码模型的训练方法、字符匹配方法和装置,能够提高字符串匹配的准确性。
[0005]根据第一方面,提供了一种字符编码模型的训练方法,包括:
[0006]获取至少两个样本训练集;其中,每一个样本训练集中包括:一个标准字符串、一个正样本字符串和一个负样本字符串;每一个样本训练集中的所述正样本字符串与所述标准字符串所表征的对象相同,所述负样本字符串与所述标准字符串所表征的对象不相同,且正样本字符串与所述标准字符串不相同;
[0007]针对每一个样本训练集进行编码处理,得到对应各个样本训练集的表征向量;
[0008]利用各个样本训练集的表征向量,计算损失函数值;
[0009]根据所述损失函数值,训练所述字符编码模型。
[0010]在一种可能的实现方式中,所述标准字符串包括:对应一个对象的名称的字符串;
[0011]所述正样本字符串包括:与所述标准字符串对应的所述对象具有同一ID,且与所述标准字符串拼写形式不同的字符串;
[0012]和/或,
[0013]所述负样本字符串包括:与所述标准字符串对应的所述对象具有不同ID,且与所述标准字符串拼写形式不同的字符串。
[0014]在一种可能的实现方式中,所述针对每一个样本训练集进行编码处理得到对应各个样本训练集的表征向量,包括:
[0015]针对每一个样本训练集,均执行:
[0016]将当前样本训练集中的标准字符串、正样本字符串和负样本字符串进行数值编码,分别得到该当前样本训练集的对应标准字符串的标准数值向量、对应正样本字符串的正样本数值向量,以及对应负样本字符串的负样本数值向量;
[0017]将当前样本训练集的标准数值向量、正样本数值向量和负样本数值向量映射到第一维度空间,分别得到该当前样本训练集的对应标准字符串的标准表征向量、对应正样本
字符串的正样本表征向量,以及对应负样本字符串的负样本表征向量;其中,所述第一维度空间的维度小于所述标准数值向量、正样本数值向量和负样本数值向量中任意一个数值向量所在的维度空间的维度。
[0018]在一种可能的实现方式中,所述标准字符串、正样本字符串和负样本字符串之间的损失函数值满足的条件包括:每一个样本训练集中正样本字符串与标准字符串的相似度大于第一相似度阈值,负样本字符串与标准字符串的相似度小于第二相似度阈值,且所述第一相似度阈值大于所述第二相似度阈值。
[0019]在一种可能的实现方式中,所述利用各个样本训练集的表征向量,计算损失函数值,包括:
[0020]利用如下计算式,计算所述所述损失函数值:
[0021][0022]其中,L用于表征所述损失函数值,N用于表征所述样本训练集的个数, f(x
i
)用于表征第i个样本训练集中对应标准字符串的标准表征向量,f(x
i+
)用于表征第i个样本训练集中对应正样本字符串的正样本表征向量,f(x
i

)用于表征第i个样本训练集中对应负样本字符串的负样本表征向量,ε用于表征平衡相似性度量和相异性度量的超参数,所述相似性度量用于表征正样本字符串和标准字符串的相似程度,所述相异性度量用于表征负样本字符串和标准字符串的差异程度。
[0023]根据第二方面,提供了一种字符匹配方法,包括:
[0024]获取待进行匹配的第一字符串和第二字符串;
[0025]将所述第一字符串和所述第二字符串分别输入到利用如权利要求1

5中任一所述的字符编码模型的训练方法训练的字符编码模型中,得到对应第一字符串的第一表征向量和对应第二字符串的第二表征向量;
[0026]计算所述第一表征向量和所述第二表征向量之间的相似性,确定所述第一字符串与所述第二字符串之间的匹配程度。
[0027]在一种可能的实现方式中,所述计算所述第一表征向量和所述第二表征向量之间的相似性确定所述第一字符串与所述第二字符串之间的匹配程度,包括:
[0028]计算所述第一表征向量和所述第二表征向量之间的余弦值;
[0029]若得到的所述余弦值不小于预设的第一匹配阈值,则确定所述第一字符串与所述第二字符串匹配;
[0030]若得到的所述余弦值小于预设的第一匹配阈值,则确定所述第一字符串与所述第二字符串不匹配。
[0031]根据第三方面,提供了一种字符编码模型的训练装置,包括:样本获取模块、编码处理模块、损失计算模块和模型训练模块;
[0032]所述样本获取模块,配置为获取至少两个样本训练集;其中,每一个样本训练集中包括:一个标准字符串、一个正样本字符串和一个负样本字符串;每一个样本训练集中的所述正样本字符串与所述标准字符串所表征的对象相同,所述负样本字符串与所述标准字符串所表征的对象不相同,且正样本字符串与所述标准字符串不相同;
[0033]所述编码处理模块,配置为针对所述样本获取模块获取的每一个样本训练集进行
编码处理,得到对应各个样本训练集的表征向量;
[0034]所述损失计算模块,配置为利用所述编码处理模块得到的各个样本训练集的表征向量,计算损失函数值;
[0035]所述模型训练模块,配置为根据所述损失计算模块得到的所述损失函数值,训练所述字符编码模型。
[0036]根据第四方面,提供了一种字符匹配装置,包括:字符串获取模块、向量输出模块和相似性计算模块;
[0037]所述字符串获取模块,配置为获取待进行匹配的第一字符串和第二字符串;
[0038]所述向量输出模块,配置为将所述字符串获取模块获取到的所述第一字符串和所述第二字符串分别输入到利用如权利要求8所述的字符编码模型的训练装置训练的字符编码模型中,得到对应第一字符串的第一表征向量和对应第二字符串的第二表征向量;
[0039]所述相似性计算模块,配置为计算所述向量输出模块输出的所述第一表征向量和所述第二表征向量之间的相似性,确定所述第一字符串与所述第二字符串之间的匹配程度。
[0040]根据第五方面,提供了一种计算设备,包括:存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述第一方面和第二方面中任一项所述的方法。
[0041]根据本说本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.字符编码模型的训练方法,包括:获取至少两个样本训练集;其中,每一个样本训练集中包括:一个标准字符串、一个正样本字符串和一个负样本字符串;每一个样本训练集中的所述正样本字符串与所述标准字符串所表征的对象相同,所述负样本字符串与所述标准字符串所表征的对象不相同,且正样本字符串与所述标准字符串不相同;针对每一个样本训练集进行编码处理,得到对应各个样本训练集的表征向量;利用各个样本训练集的表征向量,计算损失函数值;根据所述损失函数值,训练所述字符编码模型。2.根据权利要求1所述的方法,其中,所述标准字符串包括:对应一个对象的名称的字符串;所述正样本字符串包括:与所述标准字符串对应的所述对象具有同一ID,且与所述标准字符串拼写形式不同的字符串;和/或,所述负样本字符串包括:与所述标准字符串对应的所述对象具有不同ID,且与所述标准字符串拼写形式不同的字符串。3.根据权利要求1所述的方法,其中,所述针对每一个样本训练集进行编码处理得到对应各个样本训练集的表征向量,包括:针对每一个样本训练集,均执行:将当前样本训练集中的标准字符串、正样本字符串和负样本字符串进行数值编码,分别得到该当前样本训练集的对应标准字符串的标准数值向量、对应正样本字符串的正样本数值向量,以及对应负样本字符串的负样本数值向量;将当前样本训练集的标准数值向量、正样本数值向量和负样本数值向量映射到第一维度空间,分别得到该当前样本训练集的对应标准字符串的标准表征向量、对应正样本字符串的正样本表征向量,以及对应负样本字符串的负样本表征向量;其中,所述第一维度空间的维度小于所述标准数值向量、正样本数值向量和负样本数值向量中任意一个数值向量所在的维度空间的维度。4.根据权利要求1所述的方法,其中,所述标准字符串、正样本字符串和负样本字符串之间的损失函数值满足的条件包括:每一个样本训练集中正样本字符串与标准字符串的相似度大于第一相似度阈值,负样本字符串与标准字符串的相似度小于第二相似度阈值,且所述第一相似度阈值大于所述第二相似度阈值。5.根据权利要求1至4中任一所述的方法,其中,所述利用各个样本训练集的表征向量,计算损失函数值,包括:利用如下计算式,计算所述所述损失函数值:其中,L用于表征所述损失函数值,N用于表征所述样本训练集的个数,f(x
i
)用于表征第i个样本训练集中对应标准字符串的标准表征向量,用于表征第i个样本训练集中对应正样本字符串的正样本表征向量,用于表征第i个样本训练集中对应负样本字符串
的负样本表征向量,ε用于表征平衡相似性度量和相异性度量的超参数,所述相似性度量用于...

【专利技术属性】
技术研发人员:陈珺孙清清邹泊滔赖伟达郑行王爱凌
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1