在保留语义的同时对稀疏标注的文本文档的分类制造技术

技术编号:26730675 阅读:35 留言:0更新日期:2020-12-15 14:31
一种用于训练神经网络的方法、系统和计算机程序产品,所述方法包括:接收包含标注的部分和未标注的部分的文本语料库;从文本语料库中提取局部n元语法特征以及局部n元语法特征的序列;使用卷积层根据局部n元语法特征处理文本语料库,以确定被配置以保留局部n元语法特征的序列的胶囊的胶囊参数;使用胶囊参数执行胶囊之间的前向动态路由,以提取文本语料库的多个全局特征;以及使用长短期存储器层根据全局特征处理文本语料库,以从文本语料库提取多个全局顺序文本依赖关系,其中,根据局部n元语法特征、胶囊参数、全局特征和全局顺序文本依赖关系更新神经网络的参数。

【技术实现步骤摘要】
在保留语义的同时对稀疏标注的文本文档的分类
本专利技术总体涉及文本分类,更具体地涉及训练文本分类器系统的方法。
技术介绍
传统的文本分类运用技术来理解文档,例如以符合监管要求,整合内部运营等。这些文本分类通常需要对高百分比的训练数据进行标注,才能发挥作用。因此,传统的文本分类方法面临着巨大的挑战,包括在对这些文本文档进行分类时需要大量的手工劳动。
技术实现思路
根据本专利技术的一些实施例,一种训练神经网络以在保持语义的同时对稀疏标注的文本文档分类的方法包括:接收文本语料库,文本语料库包含标注的部分和超出标注的部分的未标注的部分;从文本语料库中提取多个局部n元语法特征以及局部n元语法特征的序列;使用多个卷积层根据局部n元语法特征处理文本语料库,以确定被配置以保留局部n元语法特征的序列的多个胶囊的胶囊参数;使用胶囊参数执行多个胶囊之间的前向动态路由,以提取文本语料库的多个全局特征;以及使用长短期存储器层根据全局特征处理文本语料库,以从文本语料库提取多个全局顺序文本依赖关系,其中,根据局部n元语法特征、胶囊参数、全局特征和全局顺序文本依赖关系更新神经网络的多个参数。根据本专利技术的一个或多个实施例,在计算机系统上执行的神经网络系统包括:第一多个处理元件,被配置为从文本语料库提取多个局部特征和局部特征的序列,其中,文本语料库是稀疏标注的;第二多个处理元件,被配置为提取文本语料库的多个全局特征,其中,第二多个处理元件被构造成为胶囊,该胶囊被配置为保留局部特征的序列;以及第三多个处理元件,被配置为在给定第一多个处理元件的输出的情况下,从文本语料库中提取多个全局顺序文本依赖关系,其中第三多个处理元件被构造为长短期存储器层,其被配置为输出由第一多个处理元件和第二多个处理元件生成的所有标签的概率分布。如本文所使用的,“促进”某个动作包括执行该动作、使该动作更容易、帮助执行该动作或使该动作被执行。因此,作为示例而不是限制,在一个处理器上执行的指令,可以通过发送促使或帮助执行动作的适当的数据或命令,促进由在远程处理器上执行的指令执行的动作。为免生疑问,在动作者以执行动作以外的其他方式促进动作的情况下,该动作仍然由某个实体或实体的组合执行。本专利技术的一个或多个实施例或其元件可以以计算机程序产品的形式实现,该计算机程序产品包括具有用于执行所示方法步骤的计算机可用程序代码的计算机可读存储介质。此外,本专利技术的一个或多个实施例或其元件可以以系统(或设备)的形式实现,该系统(或设备)包括存储器、以及至少一个耦合到存储器并可操作以执行示例性方法步骤的处理器。在另一方面,本专利技术的一个或多个实施例或其元件可以以用于执行本文所述的一个或多个方法步骤的装置的形式实现;该装置可以包括(i)硬件模块,(ii)存储在计算机可读存储介质(或多个这样的介质)中并在硬件处理器上实现的软件模块,或(iii)所述硬件模块和软件模块的组合;上述(i)至(iii)的任何一项都能实现本文所述的特定技术。本专利技术的技术能够提供实质性的有益技术效果。例如,一个或多个实施例可以提供:a、前向(forward-oriented)动态路由,其保留输入文本中的序列和语义;b、在一个网络中一起提取n元语法特征(局部特征)、文档全局特征和序列相关特征;以及c、利用虚拟对抗训练来训练胶囊网络(capsulesnetwork),以防止过度拟合(over-fitting),并提高准确性。本专利技术的这些和其他特征及优点,从下面结合各附图所作的对本专利技术的示例性实施例的详细描述中,将变得显而易见。附图说明下面将参考附图更详细地描述本专利技术的优选实施例:图1是根据本专利技术的一个或多个实施例的单词嵌入的方法和通过卷积产生的胶囊的示图。图2是根据本专利技术一些实施例的在两个胶囊层和长短期存储器层(longshort-termmemorylayer)之间的前向动态路由的方法的示图;图3是根据本专利技术实施例的使用神经网络处理和标注文本的方法的流程图;图4描绘了根据本专利技术一些实施例的实现神经网络架构的系统的示意图;和图5描绘了可用于实现本专利技术的一个或多个方面和/或元件的计算机系统。具体实施方式本专利技术的实施例涉及文本分类,更具体地涉及训练体现为一种自然语言文本分类器系统的神经网络架构的方法。根据本专利技术的一些实施例,可以在稀疏标注的数据集上训练神经网络架构,其中,该神经网络架构考虑文本的语义,并实现改进的性能。根据一些实施例,将该神经网络架构被配置为处理其中仅标注了一小部分文本的基于文本的数据,诸如在一类文档中仅标注了为数不多的文档时的那样。根据本专利技术的一个实施例,所述神经网络架构被配置为保留语义和文本内所标识的语义的顺序依赖关系(sequential-dependencies),所述语义和语义的顺序依赖关系可用于对文本进行分类(例如,标识情感、标识文档群组等)。根据本专利技术的一些实施例,与连续的标签相比,标签是分类的。这些标签可以包括用户(例如,人类读者)想要指定到文本的任何标签(例如类别、主题、情感、标题等)。根据本专利技术的一个或多个实施例,自然语言文本分类器系统把基于文本的数据对象(例如文档、段落、语句、文稿等)分类为不同的类别。这些类别是预先定义的,例如类别A、类别B、类别C等等,以便可以将几个不同的数据对象分类为属于类别A、类别B或类别C。在本专利技术的一些实施例中,文本分类器系统的功能可以实现为一个操作该神经网络架构的学习系统,其是一种机器学习架构。机器学习描述了从数据中学习的电子系统的功能。可以训练神经网络架构来学习输入和输出之间的当前未知的函数关系。神经网络架构的机器学习功能,使用稀疏标注的数据集学习文本分类。根据本专利技术的一些实施例,稀疏标注的数据集包括标注的部分和超出标注的部分的未标注的部分。根据本专利技术的至少一个实施例,稀疏标注的数据集包括不到约5%的标注的数据。应当理解,本专利技术的至少一些实施例也适用于密集标注的数据集。神经网络受到生物神经网络的启发。典型的神经网络被配置为一组卷积层,每一层包含一个或多个神经元,其中每个神经元连接到相邻层的所有神经元。每个连接都有一个表示该连接的相对强度的权重。可以将神经网络的给定层归类为输入层、隐藏层或输出层。每一个神经网络都有一个输入层和一个输出层,以及位于输入层和输出层之间的一些隐藏层。神经网络体现为一个分类器,该分类器被配置为在每个两层之间的边界处、根据从前一层神经元向后一层神经元发送的信号和连接这两层的连接的权重,作出某种决策。神经网络可以体现为由相互连接的处理器元件(例如物理处理器和/或虚拟处理器元件)组成的神经形态系统,这些元件充当用来交换信号的神经元。神经网络中的连接在处理器元件或神经元之间传送信号。连接上的权重是至少部分地基于经验而可调节的,使得神经网络对输入具有自适应性和学习能力。文本分类器的实施例包括被配置为在保留语义的同时对稀疏标注的文本文档进行分类的神经网络。根据本专利技术的一个或多个实施例,改本文档来自技高网...

【技术保护点】
1.一种训练神经网络以在保持语义的同时对稀疏标注的文本文档分类的方法,包括:/n接收文本语料库,文本语料库包含标注的部分和超出标注的部分的未标注的部分;/n从文本语料库中提取多个局部n元语法特征以及局部n元语法特征的序列;/n使用多个卷积层根据局部n元语法特征处理文本语料库,以确定被配置以保留局部n元语法特征的序列的多个胶囊的胶囊参数;/n使用胶囊参数执行多个胶囊之间的前向动态路由,以提取文本语料库的多个全局特征;以及/n使用长短期存储器层根据全局特征处理文本语料库,以从文本语料库提取多个全局顺序文本依赖关系,/n其中,根据局部n元语法特征、胶囊参数、全局特征和全局顺序文本依赖关系更新神经网络的多个参数。/n

【技术特征摘要】
20190614 US 16/441,9271.一种训练神经网络以在保持语义的同时对稀疏标注的文本文档分类的方法,包括:
接收文本语料库,文本语料库包含标注的部分和超出标注的部分的未标注的部分;
从文本语料库中提取多个局部n元语法特征以及局部n元语法特征的序列;
使用多个卷积层根据局部n元语法特征处理文本语料库,以确定被配置以保留局部n元语法特征的序列的多个胶囊的胶囊参数;
使用胶囊参数执行多个胶囊之间的前向动态路由,以提取文本语料库的多个全局特征;以及
使用长短期存储器层根据全局特征处理文本语料库,以从文本语料库提取多个全局顺序文本依赖关系,
其中,根据局部n元语法特征、胶囊参数、全局特征和全局顺序文本依赖关系更新神经网络的多个参数。


2.根据权利要求1所述的方法,进一步包括:
冻结神经网络的参数;以及
将神经网络应用于新输入的文本,以根据神经网络的参数来确定标签。


3.根据权利要求1所述的方法,其中,前向动态路由具有第一胶囊层和第二胶囊层,第二胶囊层中的每个第n个胶囊的输入是从第一胶囊层中的第1个到第n个胶囊的输出接收的。


4.根据权利要求1所述的方法,其中,进一步包含对神经网络应用虚拟对抗训练以通用化所述胶囊。


5.根据权利要求4所述的方法,其中,虚拟对抗训练将多个被扰动的文本数据输入到神经网络中,其中,神经网络使胶囊适应被扰动的文本数据。


6.根据权利要求1所述的方法,其中,神经网络包括由卷积滤波器组、卷积滤波器内的一组胶囊以及长短期存...

【专利技术属性】
技术研发人员:JJ托马斯AE佩特罗夫王婉婷M阿拉德
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1