用于同义词预测的分层多任务术语嵌入学习制造技术

技术编号:27031446 阅读:38 留言:0更新日期:2021-01-12 11:14
归因于现实生活中的高语言使用可变性,人工构建语义资源来覆盖所有同义词是极其昂贵的并且可以导致有限的覆盖率。本文描述了使同义资源开发自动化的系统和方法,同义资源开发包括来自终端用户的正式实体和嘈杂描述。呈现了具有分层任务关系的多任务模型的实施例,其学习更具代表性的实体/术语嵌入并且将其应用于同义词预测。在模型实施例中,通过引入辅助任务“邻近词/术语语义类型预测”并且基于任务复杂性而分层地组织它们来扩展跳字词嵌入模型。在一个或多个实施例中,将现有的术语‑术语同义词知识整合到词嵌入学习框架中。从多任务模型实施例训练的嵌入与基线相比对实体语义相关性评估、邻近词/术语语义类型预测和同义词预测实现显著改进。

【技术实现步骤摘要】
用于同义词预测的分层多任务术语嵌入学习
本公开总体上涉及用于计算机学习的系统和方法,所述系统和方法可以提供改进的计算机性能、特征和用途。更具体地,本公开涉及用于获得利用领域知识的更具代表性的术语嵌入的实施例。
技术介绍
同义词预测已经变成各种应用的重要任务,诸如用于以实体为中心的文本挖掘和解释。在同义词预测的帮助下,可以将对实体的非正式提及标准化为其标准形式,从而大大减小终端用户与下游应用之间的沟通隔阂。此类示例包括但不限于问答、信息检索和医疗诊断。从资源的角度来看,同义词预测的主要困难在于语言使用的高可变性但对知识库(KB)的覆盖率低,特别是对某些语言来说。例如,在汉语医学领域中,“食欲不振(翻译:lossofappetite)”的概念具有20多个同义词(汉语中的“食欲不振”同义词示例包括:{胃口差、吃不下东西、胃口不好、东西吃不下、饭吃不下、不爱吃饭}(翻译:nodesireforfood);{食欲低下、食欲下降、食欲不太好、缺乏食欲、食欲差、食欲减退}(翻译:decreasedappetite),但它们的大多数都不在现有的医疗知识本文档来自技高网...

【技术保护点】
1.一种用于获得术语的代表嵌入的计算机实现的方法,包括:/n对于选自输入语料库的术语集合中的每个术语,对照术语语义类型知识库来查询所述术语以确定所述术语的一个或多个语义类型,如果有所述语义类型的话;/n将所述输入语料库的术语中的至少一些转换成术语嵌入;/n对于包括目标术语和邻近术语且目标术语具有至少一个语义类型的每个上下文窗口,将所述上下文窗口中的所述目标术语的嵌入和所述邻近术语的所述一个或多个语义类型的指示符输入到多标签分类器中,所述多标签分类器输出所述上下文窗口中的所述邻近术语的预测语义类型的概率分布;/n使用所述邻近术语的所述一个或多个语义类型作为相对于所述邻近术语的预测语义类型的所述概...

【技术特征摘要】
20190709 US 16/506,2911.一种用于获得术语的代表嵌入的计算机实现的方法,包括:
对于选自输入语料库的术语集合中的每个术语,对照术语语义类型知识库来查询所述术语以确定所述术语的一个或多个语义类型,如果有所述语义类型的话;
将所述输入语料库的术语中的至少一些转换成术语嵌入;
对于包括目标术语和邻近术语且目标术语具有至少一个语义类型的每个上下文窗口,将所述上下文窗口中的所述目标术语的嵌入和所述邻近术语的所述一个或多个语义类型的指示符输入到多标签分类器中,所述多标签分类器输出所述上下文窗口中的所述邻近术语的预测语义类型的概率分布;
使用所述邻近术语的所述一个或多个语义类型作为相对于所述邻近术语的预测语义类型的所述概率分布的基础事实,以训练所述多标签分类器的术语嵌入参数集和语义类型预测参数集;
对于每个目标术语,使用所述目标术语的嵌入、从所述多标签分类器获得的所述目标术语的所述邻近术语的预测语义类型的所述概率分布、以及所述目标术语的同义词的嵌入作为邻近术语分类器的输入,预测所述目标术语的所述邻近术语;以及
使用所述邻近术语作为相对于由所述邻近术语分类器预测的所述邻近术语的基础事实,以训练术语预测参数集、所述术语嵌入参数集以及所述语义类型预测参数集。


2.如权利要求1所述的计算机实现的方法,还包括:
对词的语料库进行预处理,以形成包括术语的所述输入语料库,其中将与词汇表中的术语相对应的每个多词短语转换成所述词汇表中的所述术语。


3.如权利要求1所述的计算机实现的方法,其中,将所述输入语料库的所述术语中的至少一些转换成术语嵌入包括:
将所述术语中的所述至少一些输入到所述多标签分类器的输入层中以执行嵌入查找。


4.如权利要求1所述的计算机实现的方法,还包括:
将所述多标签分类器的损失最小化,以在来自所述输入语料库的完整训练集上更新所述多标签分类器的所述术语嵌入参数集和所述语义类型预测参数集;
将已更新的所述术语嵌入参数集和所述语义类型预测参数集传递到所述邻近术语分类器;
在所述完整训练集上将所述邻近术语分类器的损失最小化,以更新所述术语预测参数集、所述术语嵌入参数集和所述语义类型预测参数集;
在下一时段开始时将作为最小化所述邻近术语分类器的所述损失的步骤的一部分更新的所述术语嵌入参数集传递到所述多标签分类器;
响应于没有达到停止条件,重复以上步骤;以及
响应于达到停止条件,输出最后一次迭代的术语嵌入参数集作为最终术语嵌入参数集。


5.如权利要求4所述的计算机实现的方法,其中,最小化所述邻近术语分类器的损失的步骤还包括:
使用包括所述目标术语的同义词的所述嵌入的正则化作为约束。


6.如权利要求4所述的计算机实现的方法,其中,最小化所述邻近术语分类器的损失的步骤还包括:
使用负采样来将一对多多类别目标转换成二元分类目标。


7.如权利要求4所述的计算机实现的方法,其中,最小化所述邻近术语分类器的损失的步骤还包括:
使用连续正则化项来惩罚从所述邻近术语分类器的前一迭代训练获得的术语嵌入参数集与所述多标签分类器的当前迭代训练的术语嵌入参数集之间的偏差。


8.一种用于获得术语的代表嵌入的计算机实现的方法,包括:
响应于来自输入语料库的、具有如语义类型知识数据集中所指示的一个或多个语义类型的术语,将所述术语与所述一个或多个语义类型相关联;
对于来自所述输入语料库的术语的上下文窗口,其中所述上下文窗口包括目标术语和邻近术语集合,形成术语训练对,其中每个训练对包括所述目标术语和邻近术语;
将所述训练对分成:第一训练对集合,所述第一训练对集合包括具有各自与一个或多个语义类型相关联的术语的训练对;以及第二训练对集合,所述第二训练对集合包括其中术语中的至少一者不与一个或多个语义类型相关联的训练对;
将所述第一训练对集合的嵌入表示和相关联的一个或多个语义类型输入到多标签分类器中,所述多标签分类器输出所述目标术语的邻近术语的预测语义类型集合;以及
将所述第一训练对集合和所述第二训练对集合的嵌入表示、来自所述多标签分类器的所述目标术语的邻近术语的所述预测语义类型集合、以及与所述目标术语中的每一个相对应的同义词术语集合输入到邻近术语分类器中,以预测所述目标术语的邻近术语。


9.如权利要求8所述的计算机实现的方法,还包括以下步骤:
收集包括术语的同义词的同义词知识数据集,所述同义词知识数据集用来获得所述同义词术语集合;以及
收集包括来自系统词汇表的术语集合中的每个术语的一个或多个语义类型的所述语义类型知识数据集。


10.如权利要求8所述的计算机实现的方法,还包括以下步骤:
给定语料库,对所述语料库进行预处理以形成包括术语的输入语料...

【专利技术属性】
技术研发人员:费洪亮谭树龙李平
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1