用于大规模语义索引的系统和方法技术方案

技术编号:26304096 阅读:59 留言:0更新日期:2020-11-10 19:59
本文描述的是用于促进文献的语义索引的深度逐层的极端多标签学习和分类(XMLC)框架的实施方式。在一个或多个实施方式中,该深度逐层XMLC框架包括两个顺序模块,即深度逐层多标签学习模块和分层指针生成模块。在一个或多个实施方式中,该第一模块利用基于类别的动态最大池化和基于宏F度量的权重调整将域本体的项分解成多个层级并且为每个层级构建特定的卷积神经网络。在一个或多个实施方式中,该第二模块将该逐层输出合并成最终的概述语义索引。通过将其与各种数据集上自动标记的几种最新方法进行比较,证明了深度逐层XMLC框架实施方式的有效性。

【技术实现步骤摘要】
用于大规模语义索引的系统和方法
本公开总体上涉及一种用于语义索引的系统和方法。更具体地,本公开涉及一种用于具有深度逐层的极端多标签学习的语义索引的系统和方法。
技术介绍
随着科学文献的爆炸式增长量,需要高效的语义索引方法来构建检索系统。即使利用有效的技术,语义索引过程仍然涉及手动整理来自科学文献的关键方面。为了概述文章的主要主题,通常会邀请领域专家使用从领域本体中选择的关键字来手动索引文章。因此,需要用于大规模语义索引以提高自动标记效率的系统和方法。
技术实现思路
在本公开的一方面,提供了一种使用一个或多个处理器来执行步骤的用于多标签学习和分类的计算机实现的方法,所述方法包括:将原始训练文本处理成干净的训练文本;基于训练标签的本体层次结构,将所述训练标签解析成多个层级的逐层标签;至少基于所述逐层标签和所述干净的训练文本,通过逐层多标签分类模型来训练多个逐层模型,其中每个逐层模型与标签的对应层级相关;通过所训练的多个逐层模型,采用一个或多个细化策略来从一个或多个输入进行逐层预测;以及...

【技术保护点】
1.一种使用一个或多个处理器来执行步骤的用于多标签学习和分类的计算机实现的方法,所述方法包括:/n将原始训练文本处理成干净的训练文本;/n基于训练标签的本体层次结构,将所述训练标签解析成多个层级的逐层标签;/n至少基于所述逐层标签和所述干净的训练文本,通过逐层多标签分类模型来训练多个逐层模型,其中每个逐层模型与标签的对应层级相关;/n通过所训练的多个逐层模型,采用一个或多个细化策略来从一个或多个输入进行逐层预测;以及/n使用点生成模型将所述逐层预测合并到用于所述一个或多个输入数据集的统一标签集中。/n

【技术特征摘要】
20190510 US 16/409,1481.一种使用一个或多个处理器来执行步骤的用于多标签学习和分类的计算机实现的方法,所述方法包括:
将原始训练文本处理成干净的训练文本;
基于训练标签的本体层次结构,将所述训练标签解析成多个层级的逐层标签;
至少基于所述逐层标签和所述干净的训练文本,通过逐层多标签分类模型来训练多个逐层模型,其中每个逐层模型与标签的对应层级相关;
通过所训练的多个逐层模型,采用一个或多个细化策略来从一个或多个输入进行逐层预测;以及
使用点生成模型将所述逐层预测合并到用于所述一个或多个输入数据集的统一标签集中。


2.如权利要求1所述的计算机实现的方法,其中所述一个或多个输入包括用于文档的单词嵌入、用于关键字的单词嵌入、上层级嵌入和下层级嵌入。


3.如权利要求2所述的计算机实现的方法,其中进行逐层预测包括:
在每个逐层模型内的卷积神经网络(CNN)处接收用于文档的单词嵌入、用于关键字的单词嵌入、上层级标签嵌入和下层级标签嵌入的输入,以便从每个输入中提取特征表示;
使用从每个输入中提取的所述特征表示来获得串联嵌入;
在最大池化层处执行动态最大池化以从所述串联嵌入中选择所需特征;
通过应用批量归一化以及一个或多个完全连接层来从所述所需特征中获得紧凑表示;以及
至少基于所获得的紧凑表示在输出层和隐藏瓶颈层上采用二进制交叉熵损失来训练每个逐层模型。


4.如权利要求3所述的计算机实现的方法,其中在从所述单词嵌入中提取的所述特征表示上构造双向长短期记忆(Bi-LSTM),以便在串联之前保持文档的语言顺序。


5.如权利要求3所述的计算机实现的方法,其中在执行动态最大池化时,将标签的逐层相关信息并入至少所述最大池化层的神经结构中,以捕获标签同现以及标签之间的分类关系,以便动态地选择最大池化尺寸。


6.如权利要求1所述的计算机实现的方法,其中所述一个或多个细化策略包括宏F-度量优化,以使得每个逐层模型能够通过阈值调整以增量方式自动细化逐层预测。


7.如权利要求1所述的计算机实现的方法,其中使用所述点生成模型将所述逐层预测合并到统一标签集中包括:
使用所述点生成模型内的编码器来将所述逐层预测编码成分别对应于所述多个层级的多个编码器隐藏状态序列;
从所述多个编码器隐藏状态序列导出多个注意力发生器,以针对所述多个层级中的每个层级生成注意力分布和内容矢量;
从所述内容矢量、预测的标签序列矢量和解码器输入获得生成概率,以生成多个解码器隐藏状态序列;以及
至少基于所述解码器隐藏状态来生成最终的概述语义索引标签的输出。


8.如权利要求7所述的计算机实现的方法,其中覆盖机制与所述点生成模型组合以删除每个层级和跨层级的重复项。


9.一种用于大规模语义索引的多标签学习和分类的系统,所述系统包括:
逐层多标签分类模型,所述逐层多标签分类模型基于标签的本体层次结构将高维空间中的所述标签分解成多个层级中的逐层标签,所述逐层多标签分类模型包括多个卷积神经网络,其中对于每个层级的卷积神经网络,每个卷积神经网络分别从用于文档的单词嵌入、用于关键字的单词嵌入、上层级标签嵌入、以及下层级标签嵌入的输入中提取特征表示,所述卷积神经网络包括:
最大池化层,所述最大池化层用于动态最大池化,以从串联的嵌入中选择特征,所述串联的嵌入通过从所有输入中提取的特征表示而串联;
一个或多个标准化层和一个或多个完全连接层,用于批量标准化并且从所选择的特征中获得紧凑表示;
输出层,输出用于所述每个层级的逐层预测;以及

【专利技术属性】
技术研发人员:李定成张婧媛李平
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1