当前位置: 首页 > 专利查询>苏州大学专利>正文

基于BERT的自适应文本分类方法及装置制造方法及图纸

技术编号:29584602 阅读:40 留言:0更新日期:2021-08-06 19:43
本申请涉及一种基于BERT的自适应文本分类方法及装置,属于中文信息处理技术领域,包括:获取语料样本数据并对语料样本数据进行预处理;构建预设网络模型;将所述预处理后的样本数据输入预设的网络模型,并使用预设的损失函数进行监督训练,得到分类模型;设置所述分类模型的输出阈值,得到设置后的分类模型,所述输出阈值控制分类结果的提前输出,所述设置后的分类模型用于对输入的文本进行分类。相较于传统的BERT模型,可在不损失精度的情况下,缩短模型推理时间。

【技术实现步骤摘要】
基于BERT的自适应文本分类方法及装置
本申请涉及中文文本智能处理技术,更具体地说,本申请涉及一种基于BERT的自适应文本分类方法及装置。
技术介绍
文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤、新闻分类、词性标注等。文本分类的核心方法为,首先提取分类数据的特征,然后选择最优的匹配,从而分类。文本分类问题是自然语言处理领域中一个非常经典的问题,相关研究最早可以追溯专家规则进行分类,但费时费力,覆盖的范围和准确率都非常有限。后来伴随着统计学习方法的发展,特别是90年代后互联网在线文本数量增长和机器学习学科的兴起,逐渐形成了人工特征工程结合浅层分类建模流程。传统做法的文本表示的主要问题在于高纬度高稀疏,特征表示能力很弱,此外需要人工进行特征工程,成本很高。而深度学习最初在图像和语音领域取得了巨大成功,也相应推动了深度学习在NLP上的发展,使得深度学习的模型在文本分类上也取得了不错的效果。然而,大多数模型都需要建立在极强的计算力基础之上,模型分类速度慢,使得很难应用于工程化项目中。
技术实现思路
本申请的目的是解决上述技术问题。本申请提供了一种基于BERT的自适应文本分类方法,极大地提高了模型的分类速度。本申请提供如下技术方案:第一方面,提供一种基于BERT的自适应文本分类方法,其包括:获取语料样本数据并对语料样本数据进行预处理,得到预处理后的样本数据;构建预设网络模型,所述预设网络模型包括主干部分和分支部分,所述主干部分由BERT-base网络和一个主干分类器构成,所述分支部分通过在所述主干部分BERT-base网络除去最后一层的每层输出位置添加一个分支分类器构成,所述主干分类器和分支分类器可进行文本分类;将所述预处理后的样本数据输入预设的网络模型,并使用预设的损失函数进行监督训练,得到分类模型;设置所述分类模型的输出阈值,得到设置后的分类模型,所述输出阈值控制分类结果的提前输出,所述设置后的分类模型用于对输入的文本进行分类。可选地,其中对所述语料样本数据进行预处理包括:将所有语料样本中的文本序列截断为预设的最大长度;将所述文本序列中的每条文本开头插入[CLS],结尾插入[SEP],得到所述预处理后的样本数据。可选地,其中所述的主干分类器和分支分类器包括:多头自注意力层,以及与所述多头自注意力层相连的线性分类层。可选地,其中所述输出阈值控制分类结果的提前输出包括:当数据经过分支分类器时计算分类结果,并计算分类结果不确定性程度值,当不确定性程度值低于输出阈值规则时输出分类结果并停止执行。可选地,其中所述预设的损失函数为:其中,为第i个分支分类器的分类结果,pt为主干分类器的分类结果,L为所有分类器的个数。可选地,其中所述不确定性程度值通过下述公式得出:其中N为分类的类别数量,为第i个分支分类器的分类结果。第二方面,提供一种基于BERT的自适应文本分类装置,包括:样本预处理模块,用于对语料样本数据进行预处理;模型构建模块,用于构建基于BERT的自适应快速文本分类模型;模型训练模块,用于训练基于BERT的自适应快速文本分类模型。本申请的有益效果至少包括:根据设定的提前输出阈值,并根据每层分类器分类结果的不确定度程度值自适应地判断输入的待分类文本应该在网络的哪一层输出,而不必走完整个网络模型。因此,相较于传统的BERT模型,可在不损失精度的情况下,缩短模型分类时间。本申请的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本专利技术的研究和实践而为本领域的技术人员所理解。附图说明通过结合附图对于本申请的示例性实施例进行描述,可以更好地理解本申请,在附图中:图1是本申请一个实施例提供的基于BERT的自适应文本分类方法的流程图;图2是本申请一个实施例提供的基于BERT的预设网络结构示意图;图3是本申请一个实施例提供的基于BERT的自适应文本分类装置的框图。具体实施方式下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述,以令本领域技术人员参照说明书文字能够据以实施。需要指出的是,在这些实施方式的具体描述过程中,为了进行简明扼要的描述,本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是,在任意一种实施方式的实际实施过程中,正如在任意一个工程项目或者设计项目的过程中,为了实现开发者的具体目标,为了满足系统相关的或者商业相关的限制,常常会做出各种各样的具体决策,而这也会从一种实施方式到另一种实施方式之间发生改变。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的
技术实现思路
的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请的内容不充分。首先,对本申请涉及的若干名词进行介绍。BERT(BidirectionalEncoderRepresentationsfromTransformers)是google在2018年提出的一种预训练语言表示的方法,他将NLP模型的建立分为预训练和微调两个阶段。预训练是为了在大量文本语料上训练一个通用的“语言理解”模型,然后用这个模型去执行想做的NLP任务。微调则是在具体的NLP任务上进行相应的微调学习。BERT模型结构主要采用了transformer的编码结构,其主要创新点在于其采用了以下两种训练方法:一是在训练双向语言模型时,以减少的概率把少量的词替换成Mask或者另一个随机的词;二是增加了一个预测下一句的loss,迫使模型学习到句子之间的关系。BERT自提出后,凭借Transformer强大的特征学习能力以及通过掩码语言模型实现的双向编码,其大幅地提高了各项NLP任务的基准表现。然而,BERT预处理模型功能需要建立在极强的计算力基础之上,模型分类速度慢,使得BERT很难应用于工程化项目中。本专利技术提供了一种新颖的具有自适应机制的文本分类方法,在确保模型性能的前提下,极大地提高了模型的分类速度。图1是本申请一个实施例提供的基于BERT的自适应文本分类方法的流程图。该方法至少包括以下几个步骤:步骤S101,获取语料样本数据并对语料样本数据进行预处理,得到预处理后的样本数据。将所有文本序列截断为预设的最大长度,并建立标签字典,将所有标签转换为数字标签。将每条文本开头插入[CLS],结尾插入[SEP],使得每条文本序列以[CLS]开头,以[SEP]结尾,最后将处理后的文本序列转换为可以输入模型的特征向量。步骤S102,构建预设网络模型,所述预设网络模型包括主干部分和分支部分,所述主干部分由BERT-base网络和一个主干分类器构成,所述分支部分通过在所述主干部分BERT-base网络除去最后一层的每层输出位置添加一个分支分类器构成本文档来自技高网
...

【技术保护点】
1.一种基于BERT的自适应文本分类方法,其包括:/n获取语料样本数据并对语料样本数据进行预处理,得到预处理后的样本数据;/n构建预设网络模型,所述预设网络模型包括主干部分和分支部分,所述主干部分由BERT-base网络和一个主干分类器构成,所述分支部分通过在所述主干部分BERT-base网络除去最后一层的每层输出位置添加一个分支分类器构成,所述主干分类器和分支分类器可进行文本分类;/n将所述预处理后的样本数据输入预设的网络模型,并使用预设的损失函数进行监督训练,得到分类模型;/n设置所述分类模型的输出阈值,得到设置后的分类模型,所述输出阈值控制分类结果的提前输出,所述设置后的分类模型用于对输入的文本进行分类。/n

【技术特征摘要】
1.一种基于BERT的自适应文本分类方法,其包括:
获取语料样本数据并对语料样本数据进行预处理,得到预处理后的样本数据;
构建预设网络模型,所述预设网络模型包括主干部分和分支部分,所述主干部分由BERT-base网络和一个主干分类器构成,所述分支部分通过在所述主干部分BERT-base网络除去最后一层的每层输出位置添加一个分支分类器构成,所述主干分类器和分支分类器可进行文本分类;
将所述预处理后的样本数据输入预设的网络模型,并使用预设的损失函数进行监督训练,得到分类模型;
设置所述分类模型的输出阈值,得到设置后的分类模型,所述输出阈值控制分类结果的提前输出,所述设置后的分类模型用于对输入的文本进行分类。


2.根据权利要求1所述的方法,其中对所述语料样本数据进行预处理包括:
将所有语料样本中的文本序列截断为预设的最大长度;
将所述文本序列中的每条文本开头插入[CLS],结尾插入[SEP],得到所述预处理后的样本数据。


3.根据权利要求1所述的方...

【专利技术属性】
技术研发人员:李寿山陆文捷张栋周国栋
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1