对比学习模型的训练方法及装置、汉字表示方法及装置制造方法及图纸

技术编号:34947076 阅读:14 留言:0更新日期:2022-09-17 12:23
本发明专利技术提供一种对比学习模型的训练方法及装置、汉字表示方法及装置,其中对比学习模型的训练方法包括:基于相似汉字混淆集中的各混淆汉字构建相似汉字簇集合,所述相似汉字簇集合包括字音相似汉字簇集合和字形相似汉字簇集合;根据所述字音相似汉字簇集合、所述字形相似汉字簇集合构建样本汉字三元组集合;将所述样本汉字三元组集合输入对比学习模型进行训练,直至达到训练停止条件。利用包含有字音相似汉字簇集合和字形相似汉字簇集合的样本汉字三元组集合对对比学习模型进行训练,可以得到汉字之间字音字形的相似关系,丰富了汉字之间字音字形相似关系的表达。字之间字音字形相似关系的表达。字之间字音字形相似关系的表达。

【技术实现步骤摘要】
对比学习模型的训练方法及装置、汉字表示方法及装置


[0001]本专利技术涉及自然语言处理
,尤其涉及一种对比学习模型的训练方法及装置、汉字表示方法及装置。

技术介绍

[0002]随着深度学习技术的发展,如何高质量地将文本编码成分布式语义表示是工业界和学术界关注热点之一。汉字表示属于文本表示的范畴,其目标在于将汉字文本编码成计算机可理解的形式,是智能化处理中文文本的基础。
[0003]相关技术中,大部分关于汉字表示的研究都集中于依靠汉字上下文提取汉字语义信息。用于汉字表示的神经语言模型大部分都是在汉字语义信息的基础上构建的。
[0004]然而,汉字作为一种单音节象形文字,不仅蕴含着语义信息,还蕴含有字音、字形等方面的信息。因此,仅利用汉字语义信息构建的神经语言模型难以应用到对汉字字音字形相似关系敏感的任务中。

技术实现思路

[0005]本专利技术提供一种对比学习模型的训练方法及装置、汉字表示方法及装置,用以解决现有技术中对汉字之间相似关系表达不充分的缺陷,实现丰富汉字之间相似关系的表达。
[0006]本专利技术提供一种对比学习模型的训练方法,包括:
[0007]基于相似汉字混淆集中的各混淆汉字构建相似汉字簇集合,所述相似汉字簇集合包括字音相似汉字簇集合和字形相似汉字簇集合;
[0008]根据所述字音相似汉字簇集合、所述字形相似汉字簇集合构建样本汉字三元组集合;
[0009]将所述样本汉字三元组集合输入对比学习模型进行训练,直至达到训练停止条件。/>[0010]根据本专利技术提供的一种对比学习模型的训练方法,所述基于相似汉字混淆集中的各混淆汉字构建相似汉字簇集合,包括:
[0011]计算所述各混淆汉字的编辑距离,得到所述各混淆汉字之间的相似度;
[0012]基于所述相似度,构建所述相似汉字簇集合。
[0013]根据本专利技术提供的一种对比学习模型的训练方法,所述根据所述字音相似汉字簇集合、所述字形相似汉字簇集合构建样本汉字三元组集合,包括:
[0014]按照预设转换格式,将所述字音相似汉字簇集合、所述字形相似汉字簇集合中的汉字转换为汉字单元;
[0015]从所述字音相似汉字簇集合、所述字形相似汉字簇集合中依次选取任一个汉字簇作为目标汉字簇,选取所述目标汉字簇中任意两个汉字单元,分别作为锚点汉字单元和相似汉字单元,选取非目标汉字簇中任一个汉字单元,作为非相似汉字单元;
[0016]根据所述锚点汉字单元、所述相似汉字单元以及所述非相似汉字单元,构建所述样本汉字三元组集合。
[0017]根据本专利技术提供的一种对比学习模型的训练方法,所述将所述样本汉字三元组集合输入对比学习模型进行训练,直至达到训练停止条件,包括:
[0018]利用预训练语言模型将所述样本汉字三元组集合中每个样本汉字三元组的汉字单元进行编码,生成样本向量组集合;
[0019]将所述样本向量组集合输入对比学习模型进行训练,直至达到训练停止条件。
[0020]根据本专利技术提供的一种对比学习模型的训练方法,所述样本向量组集合中每个样本向量组包括锚点汉字向量、相似汉字向量和非相似汉字向量;
[0021]所述将所述样本向量组集合输入对比学习模型进行训练,直至达到训练停止条件,包括:
[0022]依次将每个所述样本向量组的所述锚点汉字向量、所述相似汉字向量和所述非相似汉字向量输入所述对比学习模型,输出每个所述样本向量组的第一余弦距离和第二余弦距离,所述第一余弦距离为所述锚点汉字向量与所述相似汉字向量的余弦距离,所述第二余弦距离为所述锚点汉字向量与所述非相似汉字向量的余弦距离;
[0023]利用梯度下降法调整所述锚点汉字向量、所述相似汉字向量和所述非相似汉字向量,直至所述对比学习模型达到训练停止条件,所述训练停止条件包括:所述对比学习模型的损失值达到预设阈值。
[0024]根据本专利技术提供的一种对比学习模型的训练方法,所述对比学习模型的损失值通过以下公式(1)计算得到:
[0025][0026]其中,L
a
为所述对比学习模型的损失值;sim为向量余弦相似度;E
a
为所述锚点汉字向量;为所述相似汉字向量;为所述非相似汉字向量;τ为温度系数;N为所述样本向量组集合的数量。
[0027]本专利技术还提供一种汉字表示方法,包括:
[0028]获取至少两个汉字,并按预设转换格式将所述汉字转换为汉字单元;
[0029]将所述汉字单元输入对比学习模型进行处理,得到各汉字之间的相似关系;
[0030]其中,所述对比学习模型是通过所述对比模型的训练方法训练得到的。
[0031]本专利技术还提供一种对比学习模型训练装置,包括:
[0032]第一构建模块,用于基于相似汉字混淆集中的各混淆汉字构建相似汉字簇集合,所述相似汉字簇集合包括字音相似汉字簇集合和字形相似汉字簇集合;
[0033]第二构建模块,用于根据所述字音相似汉字簇集合、所述字形相似汉字簇集合构建样本汉字三元组集合;
[0034]训练模块,用于将所述样本汉字三元组集合输入对比学习模型进行训练,直至达到训练停止条件。
[0035]本专利技术还提供一种汉字表示装置,包括:
[0036]获取模块,用于获取至少两个汉字,并按预设转换格式将所述汉字转换为汉字单元;
[0037]处理模块,用于将所述汉字单元输入对比学习模型进行处理,得到各汉字之间的相似关系;
[0038]其中,所述对比学习模型是通过所述对比模型的训练方法训练得到的。
[0039]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述对比学习模型的训练方法或者汉字表示方法。
[0040]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述对比学习模型的训练方法或者汉字表示方法。
[0041]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述对比学习模型的训练方法或者汉字表示方法。
[0042]本专利技术提供的对比学习模型的训练方法,通过相似汉字混淆集中的各混淆汉字构建相似汉字簇集合,然后根据相似汉字簇集合中的字音相似汉字簇集合和字形相似汉字簇集合构建样本汉字三元组集合,利用包含有字音相似汉字簇集合和字形相似汉字簇集合的样本汉字三元组集合对对比学习模型进行训练,可以得到汉字之间字音字形的相似关系,丰富了汉字之间字音字形相似关系的表达。
附图说明
[0043]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
...

【技术保护点】

【技术特征摘要】
1.一种对比学习模型的训练方法,其特征在于,包括:基于相似汉字混淆集中的各混淆汉字构建相似汉字簇集合,所述相似汉字簇集合包括字音相似汉字簇集合和字形相似汉字簇集合;根据所述字音相似汉字簇集合、所述字形相似汉字簇集合构建样本汉字三元组集合;将所述样本汉字三元组集合输入对比学习模型进行训练,直至达到训练停止条件。2.根据权利要求1所述的对比学习模型的训练方法,其特征在于,所述基于相似汉字混淆集中的各混淆汉字构建相似汉字簇集合,包括:计算所述各混淆汉字的编辑距离,得到所述各混淆汉字之间的相似度;基于所述相似度,构建所述相似汉字簇集合。3.根据权利要求1所述的对比学习模型的训练方法,其特征在于,所述根据所述字音相似汉字簇集合、所述字形相似汉字簇集合构建样本汉字三元组集合,包括:按照预设转换格式,将所述字音相似汉字簇集合、所述字形相似汉字簇集合中的汉字转换为汉字单元;从所述字音相似汉字簇集合、所述字形相似汉字簇集合中依次选取任一个汉字簇作为目标汉字簇,选取所述目标汉字簇中任意两个汉字单元,分别作为锚点汉字单元和相似汉字单元,选取非目标汉字簇中任一个汉字单元,作为非相似汉字单元;根据所述锚点汉字单元、所述相似汉字单元以及所述非相似汉字单元,构建所述样本汉字三元组集合。4.根据权利要求1

3中任一项所述的对比学习模型的训练方法,其特征在于,所述将所述样本汉字三元组集合输入对比学习模型进行训练,直至达到训练停止条件,包括:利用预训练语言模型将所述样本汉字三元组集合中每个样本汉字三元组进行编码,生成样本向量组集合;将所述样本向量组集合输入对比学习模型进行训练,直至达到训练停止条件。5.根据权利要求4所述的对比学习模型的训练方法,其特征在于,所述样本向量组集合中每个样本向量组包括锚点汉字单元向量、相似汉字单元向量和非相似汉字单元向量;所述将所述样本向量组集合输入对比学习模型进行训练,直至达到训练停止条件,包括:依次将每个所述样本向量组的所述锚点汉字单元向量、所述相似汉字单元向量和所述非相似汉字单元向量输入所述对比学习模型,输出每个所述样本向量组的第一余弦距离和第二余弦距离,所述第一余弦距离为所述锚点汉字单元向量与所述相似汉字单元向量的余弦距离,所述第二余弦距离为所述锚点汉字单元向量与所述非相似汉字单元向量的余弦距离;利用梯度下降法调整所述锚点汉字单元向量、所述相似...

【专利技术属性】
技术研发人员:张家俊李鑫赵阳宗成庆
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1