基于BERT的自适应文本分类方法及装置制造方法及图纸

技术编号：29584602 阅读：40 留言：0更新日期：2021-08-06 19:43

本申请涉及一种基于BERT的自适应文本分类方法及装置，属于中文信息处理技术领域，包括：获取语料样本数据并对语料样本数据进行预处理；构建预设网络模型；将所述预处理后的样本数据输入预设的网络模型，并使用预设的损失函数进行监督训练，得到分类模型；设置所述分类模型的输出阈值，得到设置后的分类模型，所述输出阈值控制分类结果的提前输出，所述设置后的分类模型用于对输入的文本进行分类。相较于传统的BERT模型，可在不损失精度的情况下，缩短模型推理时间。

全部详细技术资料下载

【技术实现步骤摘要】
基于BERT的自适应文本分类方法及装置
本申请涉及中文文本智能处理技术，更具体地说，本申请涉及一种基于BERT的自适应文本分类方法及装置。
技术介绍
文本分类在文本处理中是很重要的一个模块，它的应用也非常广泛，比如：垃圾过滤、新闻分类、词性标注等。文本分类的核心方法为，首先提取分类数据的特征，然后选择最优的匹配，从而分类。文本分类问题是自然语言处理领域中一个非常经典的问题，相关研究最早可以追溯专家规则进行分类，但费时费力，覆盖的范围和准确率都非常有限。后来伴随着统计学习方法的发展，特别是90年代后互联网在线文本数量增长和机器学习学科的兴起，逐渐形成了人工特征工程结合浅层分类建模流程。传统做法的文本表示的主要问题在于高纬度高稀疏，特征表示能力很弱，此外需要人工进行特征工程，成本很高。而深度学习最初在图像和语音领域取得了巨大成功，也相应推动了深度学习在NLP上的发展，使得深度学习的模型在文本分类上也取得了不错的效果。然而，大多数模型都需要建立在极强的计算力基础之上，模型分类速度慢，使得很难应用于工程化项目中。
技术实现思路
本申请的目的是解决上述技术问题。本申请提供了一种基于BERT的自适应文本分类方法，极大地提高了模型的分类速度。本申请提供如下技术方案：第一方面，提供一种基于BERT的自适应文本分类方法，其包括：获取语料样本数据并对语料样本数据进行预处理，得到预处理后的样本数据；构建预设网络模型，所述预设网络模型包括主干部分和分支部分，所述主干部分由BERT-base...

【技术保护点】
1.一种基于BERT的自适应文本分类方法，其包括：/n获取语料样本数据并对语料样本数据进行预处理，得到预处理后的样本数据；/n构建预设网络模型，所述预设网络模型包括主干部分和分支部分，所述主干部分由BERT-base网络和一个主干分类器构成，所述分支部分通过在所述主干部分BERT-base网络除去最后一层的每层输出位置添加一个分支分类器构成，所述主干分类器和分支分类器可进行文本分类；/n将所述预处理后的样本数据输入预设的网络模型，并使用预设的损失函数进行监督训练，得到分类模型；/n设置所述分类模型的输出阈值，得到设置后的分类模型，所述输出阈值控制分类结果的提前输出，所述设置后的分类模型用于对输入的文本进行分类。/n

【技术特征摘要】
1.一种基于BERT的自适应文本分类方法，其包括：
获取语料样本数据并对语料样本数据进行预处理，得到预处理后的样本数据；
构建预设网络模型，所述预设网络模型包括主干部分和分支部分，所述主干部分由BERT-base网络和一个主干分类器构成，所述分支部分通过在所述主干部分BERT-base网络除去最后一层的每层输出位置添加一个分支分类器构成，所述主干分类器和分支分类器可进行文本分类；
将所述预处理后的样本数据输入预设的网络模型，并使用预设的损失函数进行监督训练，得到分类模型；
设置所述分类模型的输出阈值，得到设置后的分类模型，所述输出阈值控制分类结果的提前输出，所述设置后的分类模型用于对输入的文本进行分类。

2.根据权利要求1所述的方法，其中对所述语料样本数据进行预处理包括：
将所有语料样本中的文本序列截断为预设的最大长度；
将所述文本序列中的每条文本开头插入[CLS]，结尾插入[SEP]，得到所述预处理后的样本数据。

3.根据权利要求1所述的方...

【专利技术属性】
技术研发人员：李寿山，陆文捷，张栋，周国栋，
申请(专利权)人：苏州大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人