【技术实现步骤摘要】
【国外来华专利技术】通过对齐词义库来衔接词语和定义之间的语义
[0001]相关申请的交叉引用
[0002]本申请要求于2021年10月22日向美国专利商标局提交的第17/508,417号美国申请的优先权,该美国申请的公开内容通过引用整体并入本文中。
[0003]本公开的实施例指向自然语言处理(NLP)领域,更具体地,涉及词义消歧(WSD),WSD旨在在词语在句子或表述中使用的语境中自动地理解词语的确切含义。
技术介绍
[0004]人类语言在某种程度上是模棱两可的,原因是词语在不同的语境中可具有多种含义。WSD旨在在词语使用的语境(通常是语境句子)中自动地识别词语的确切含义。在词语的语境中识别词语的正确含义对于许多下游任务(例如机器翻译、信息提取和自然语言处理中的其它任务)而言是必不可少的。
[0005]本公开所解决的问题之一是由于针对罕见词义有限的训练数据,导致监督模型在尝试预测那些罕见词义的正确含义时所面临的问题。由于大多数模型基于根据预定义的词义库进行训练来预测词语的含义,因此在预测词语的含义时,通常会忽略不出现或不是非常频繁地出现的罕见词。
[0006]许多方法包括使用特定于任务的数据集上的大量文本数据对语言模型进行微调。然而,这些方法往往限制已训练模型的适用性,并导致重大问题。首先,由于训练数据中的样本不足,导致在预测罕见和零样本词义时模型的性能显著下降。另一个问题是模型的特定于任务的微调通常使模型依赖于词库,其中模型只能从一个预定词义库(例如WordNet)中选择最佳定义,而不能更一般地选择。< ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于预测词义的方法,所述方法包括:生成一个或多个对齐库,其中,所述一个或多个对齐库使用一个或多个词义库而生成;获得语境句子中的词语;使用语义等价识别器模型来确定一个或多个语义等价分数,所述一个或多个语义等价分数指示所述语境句子中的所述词语与所述一个或多个对齐库中的一个或多个关联注释中的每个关联注释之间的语义相似度;以及基于所确定的一个或多个语义等价分数来预测所述语境句子中的所述词语的正确含义。2.根据权利要求1所述的方法,其中,所述生成一个或多个对齐库包括:从第一词义库中收集注释;从第二词义库中收集注释;确定所述第一词义库与所述第二词义库之间的最佳匹配,其中,所述确定所述第一词义库与所述第二词义库之间的最佳匹配包括:对于所述第一词义库和所述第二词义库中的每个常用词,确定来自所述第一词义库的每个注释与来自所述第二词义库的一个或多个关联注释中的每个关联注释之间的句子文本相似度分数;和确定匹配函数以将来自所述第一词义库的每个注释映射到来自所述第二词义库的一个或多个关联注释中的每个关联注释,其中,所述匹配函数配置成使来自所述第一词义库的每个注释与来自所述第二词义库的一个或多个关联注释中的每个关联注释之间的句子文本相似度分数之和最大化;基于确定来自所述第一词义库的注释与来自所述第二词义库的一个或多个关联注释中的每个关联注释之间的句子文本相似度分数大于阈值,通过将来自所述第一词义库的注释与来自所述第二词义库的一个或多个关联注释中的每个关联注释进行配对来生成正注释对;以及基于确定来自所述第一词义库的注释与来自所述第二词义库的一个或多个关联注释中的每个关联注释之间的句子文本相似度分数小于所述阈值,通过将来自所述第一词义库的注释与来自所述第二词义库的一个或多个关联注释中的每个关联注释进行配对来生成负注释对。3.根据权利要求2所述的方法,其中,所述确定来自所述第一词义库的每个注释与来自所述第二词义库的一个或多个关联注释中的每个关联注释之间的句子文本相似度分数包括:基于二次预训练模型来确定一个或多个句子嵌入;以及基于所述一个或多个句子嵌入,确定来自所述第一词义库的每个注释与来自所述第二词义库的一个或多个关联注释中的每个关联注释之间的余弦相似度。4.根据权利要求3所述的方法,其中,所述二次预训练模型包括来自转换器的句子双向编码器表示(SBERT)模型。5.根据权利要求1所述的方法,其中,所述使用语义等价识别器模型来确定一个或多个语义等价分数,所述一个或多个语义等价分数指示所述语境句子中的所述词语与所述一个或多个对齐库中的一个或多个关联注释中的每个关联注释之间的语义相似度包括:
将所述语境句子中的所述词语输入到所述语义等价识别器模型中;将所述一个或多个对齐库输入到所述语义等价识别器模型中;识别来自所述一个或多个对齐库的、与所述语境句子中的所述词语相关联的一个或多个注释;以及将经训练的注释分类器应用于所识别的一个或多个注释,以生成所识别的一个或多个注释中的每个注释的概率分数。6.根据权利要求5所述的方法,其中,使用增强训练数据来训练所述经训练的注释分类器,其中,所述增强训练数据是所述一个或多个对齐库和与特定词义库相关联的内置训练数据的组合。7.根据权利要求5所述的方法,其中,使用所述一个或多个对齐库来训练所述经训练的注释分类器,且在新的领域中,使用与特定词义库相关联的内置训练数据来微调所述经训练的注释分类器。8.根据权利要求1所述的方法,其中,所述一个或多个词义库是用于一种语言的词汇数据集。9.根据权利要求1所述的方法,其中,所述基于所确定的一个或多个语义等价分数来预测语境句子中的所述词语的正确含义包括:选择与最高语义等价分数相关联的结果注释。10.一种用于预测词义的装置,所述装置包括:至少一个存储器,配置成存储程序代码;和至少一个处理器,配置成读取所述程序代码并按照所述程序代码的指示进行操作,所述程序代码包括:第一生成代码,配置成使得所述至少一个处理器生成一个或多个对齐库,其中,所述一个或多个对齐库使用一个或多个词义库而生成;第一获得代码,配置成使得所述至少一个处理器获得语境句子中的词语;第一确定代码,配置成使得所述至少一个处理器使用语义等价识别器模型来确定一个或多个语义等价分数,所述一个或多个语义等价分数指示所述语境句子中的所述词语与所述一个或多个对齐库中的一个或多个关联注释中的每个关联注释之间的语义相似度;以及第一预测代码,配置成使得所述至少一个处理器基于所确定的一个或多个语义等价分数来预测语境句子中的所述词语的正确含义。11.根据权利要求10所述的装置,其中,所述第一生成代码还包括:第一收集代码,配置成使得所述至少一个处理器从第一词义库中收集注释;第二收集代码,配置成使得所述至少一个处理器从第二词义库中收集注释;第二确定代码,配置成使得所述至少一个处理器确定所述第一词义库与所述第二词义库之间的最佳匹配,所述第二确定代码进一步包括:第三确定代码,配置成使得所述至少一个处理器对于所述第一词义库和所述第二词义库中的每个常用词,确定来自所述第一词义库的每个注释与来自所述第二词义库的一个或多个关联注释中的每个关联注释之间的句子文本相似度分数;和第四确定代码,配置成使得所述至少一个处理器确定匹配函数以将来自所述第一词义库的每个注释映射到来自所述第二词义库的一个或多个关联注释中的每个关联注...
【专利技术属性】
技术研发人员:姚文林,潘小满,金立峰,陈建树,于典,俞栋,
申请(专利权)人:腾讯美国有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。