在保留语义的同时对稀疏标注的文本文档的分类制造技术

技术编号：26730675 阅读：35 留言：0更新日期：2020-12-15 14:31

一种用于训练神经网络的方法、系统和计算机程序产品，所述方法包括：接收包含标注的部分和未标注的部分的文本语料库；从文本语料库中提取局部n元语法特征以及局部n元语法特征的序列；使用卷积层根据局部n元语法特征处理文本语料库，以确定被配置以保留局部n元语法特征的序列的胶囊的胶囊参数；使用胶囊参数执行胶囊之间的前向动态路由，以提取文本语料库的多个全局特征；以及使用长短期存储器层根据全局特征处理文本语料库，以从文本语料库提取多个全局顺序文本依赖关系，其中，根据局部n元语法特征、胶囊参数、全局特征和全局顺序文本依赖关系更新神经网络的参数。

全部详细技术资料下载

【技术实现步骤摘要】
在保留语义的同时对稀疏标注的文本文档的分类
本专利技术总体涉及文本分类，更具体地涉及训练文本分类器系统的方法。
技术介绍
传统的文本分类运用技术来理解文档，例如以符合监管要求，整合内部运营等。这些文本分类通常需要对高百分比的训练数据进行标注，才能发挥作用。因此，传统的文本分类方法面临着巨大的挑战，包括在对这些文本文档进行分类时需要大量的手工劳动。
技术实现思路
根据本专利技术的一些实施例，一种训练神经网络以在保持语义的同时对稀疏标注的文本文档分类的方法包括：接收文本语料库，文本语料库包含标注的部分和超出标注的部分的未标注的部分；从文本语料库中提取多个局部n元语法特征以及局部n元语法特征的序列；使用多个卷积层根据局部n元语法特征处理文本语料库，以确定被配置以保留局部n元语法特征的序列的多个胶囊的胶囊参数；使用胶囊参数执行多个胶囊之间的前向动态路由，以提取文本语料库的多个全局特征；以及使用长短期存储器层根据全局特征处理文本语料库，以从文本语料库提取多个全局顺序文本依赖关系，其中，根据局部n元语法特征、胶囊参数、全局特征和全局顺序文本依赖关系更新神经网络的多个参数。根据本专利技术的一个或多个实施例，在计算机系统上执行的神经网络系统包括：第一多个处理元件，被配置为从文本语料库提取多个局部特征和局部特征的序列，其中，文本语料库是稀疏标注的；第二多个处理元件，被配置为提取文本语料库的多个全局特征，其中，第二多个处理元件被构造成为胶囊，该胶囊被配置为保留局部特征的序列；以及第三多个处理元件，被配置为在给...

【技术保护点】
1.一种训练神经网络以在保持语义的同时对稀疏标注的文本文档分类的方法，包括：/n接收文本语料库，文本语料库包含标注的部分和超出标注的部分的未标注的部分；/n从文本语料库中提取多个局部n元语法特征以及局部n元语法特征的序列；/n使用多个卷积层根据局部n元语法特征处理文本语料库，以确定被配置以保留局部n元语法特征的序列的多个胶囊的胶囊参数；/n使用胶囊参数执行多个胶囊之间的前向动态路由，以提取文本语料库的多个全局特征；以及/n使用长短期存储器层根据全局特征处理文本语料库，以从文本语料库提取多个全局顺序文本依赖关系，/n其中，根据局部n元语法特征、胶囊参数、全局特征和全局顺序文本依赖关系更新神经网络的多个参数。/n

【技术特征摘要】
20190614 US 16/441,9271.一种训练神经网络以在保持语义的同时对稀疏标注的文本文档分类的方法，包括：
接收文本语料库，文本语料库包含标注的部分和超出标注的部分的未标注的部分；
从文本语料库中提取多个局部n元语法特征以及局部n元语法特征的序列；
使用多个卷积层根据局部n元语法特征处理文本语料库，以确定被配置以保留局部n元语法特征的序列的多个胶囊的胶囊参数；
使用胶囊参数执行多个胶囊之间的前向动态路由，以提取文本语料库的多个全局特征；以及
使用长短期存储器层根据全局特征处理文本语料库，以从文本语料库提取多个全局顺序文本依赖关系，
其中，根据局部n元语法特征、胶囊参数、全局特征和全局顺序文本依赖关系更新神经网络的多个参数。

2.根据权利要求1所述的方法，进一步包括：
冻结神经网络的参数；以及
将神经网络应用于新输入的文本，以根据神经网络的参数来确定标签。

3.根据权利要求1所述的方法，其中，前向动态路由具有第一胶囊层和第二胶囊层，第二胶囊层中的每个第n个胶囊的输入是从第一胶囊层中的第1个到第n个胶囊的输出接收的。

4.根据权利要求1所述的方法，其中，进一步包含对神经网络应用虚拟对抗训练以通用化所述胶囊。

5.根据权利要求4所述的方法，其中，虚拟对抗训练将多个被扰动的文本数据输入到神经网络中，其中，神经网络使胶囊适应被扰动的文本数据。

6.根据权利要求1所述的方法，其中，神经网络包括由卷积滤波器组、卷积滤波器内的一组胶囊以及长短期存...

【专利技术属性】
技术研发人员：JJ托马斯，AE佩特罗夫，王婉婷，M阿拉德，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人