一种文本分类方法、终端设备及计算机可读存储介质技术

技术编号:24574639 阅读:41 留言:0更新日期:2020-06-21 00:12
本发明专利技术提供一种文本分类方法、终端设备及计算机可读存储介质,方法包括:在第一模型的基础上增加全连接层,基于有监督数据集对全连接层的参数进行训练得到微调预训练模型;通过文本增强算法基于有监督数据集得到数据量增倍的增强数据集,并通过微调预训练模型对增强数据集进行分类得到增强数据集的第一数据分布;利用有监督数据集训练第二模型,第一模型的参数量是所述第二模型的参数量的十倍以上,通过第二模型对所述增强数据集进行分类得到增强数据集的第二数据分布;通过最大化第一数据分布和第二数据分布的相似度的方式进一步训练第二模型,保存全部参数用于对待分类文本进行分类。在保证第二模型速率不变的基础上提升准确率。

A text classification method, terminal equipment and computer readable storage medium

【技术实现步骤摘要】
一种文本分类方法、终端设备及计算机可读存储介质
本专利技术涉及自然语言处理
,尤其涉及一种文本分类方法、终端设备及计算机可读存储介质。
技术介绍
中文文本分类作为中文自然语言处理的一项重要任务,正在得到越来越广泛的研究和应用。目前,中文文本分类方法包含了基于传统机器学习的文本分类方法和基于深度学习的文本分类方法,以及一些倾向于融合传统机器学习和深度的方法。其中较为简单是文本分类模型是基于词袋模型的文本分类算法,词袋模型最早可以追溯到泽里格·哈里斯于1954年的文章(DistributionalStructure.Word.1954,10(2/3):146–62.)若使用词袋模型来表示文本,则句子“我喜欢打篮球,小明也喜欢。”和“小明喜欢踢足球,但小红喜欢乒乓球。”经过中文分词后可以构造出词典:{我0,喜欢2,打,篮球,小明,也,踢1,足球1,但1,小红1,乒乓球1}。进而将上述连个句子表示为:[1,2,1,1,1,1,0,0,0,0,0]和[0,2,0,0,1,0,1,1,1,1,1]。即基于句子中词出现的词典中的次数为将每一个句子表示为本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,包括如下步骤:/nS1:在第一模型的基础上增加全连接层,基于有监督数据集对所述全连接层的参数进行训练得到微调预训练模型;/nS2:通过文本增强算法基于所述有监督数据集得到数据量增倍的增强数据集,并通过所述微调预训练模型对所述增强数据集进行分类得到所述增强数据集的第一数据分布;/nS3:利用所述有监督数据集训练第二模型,所述第一模型的参数量是所述第二模型的参数量的十倍以上,通过第二模型对所述增强数据集进行分类得到所述增强数据集的第二数据分布;/nS4:通过最大化所述第一数据分布和第二数据分布的相似度的方式进一步训练所述第二模型,保存训练完成后的所述第二模型的全部...

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括如下步骤:
S1:在第一模型的基础上增加全连接层,基于有监督数据集对所述全连接层的参数进行训练得到微调预训练模型;
S2:通过文本增强算法基于所述有监督数据集得到数据量增倍的增强数据集,并通过所述微调预训练模型对所述增强数据集进行分类得到所述增强数据集的第一数据分布;
S3:利用所述有监督数据集训练第二模型,所述第一模型的参数量是所述第二模型的参数量的十倍以上,通过第二模型对所述增强数据集进行分类得到所述增强数据集的第二数据分布;
S4:通过最大化所述第一数据分布和第二数据分布的相似度的方式进一步训练所述第二模型,保存训练完成后的所述第二模型的全部参数用于对待分类文本进行分类。


2.如权利要求1所述的文本分类方法,其特征在于,通过文本增强算法基于所述有监督数据集得到数据量增倍的增强数据集包括如下中至少一种:
依概率掩盖的文本数据增强获得第一增强数据集;
依概率词性替换的文本数据增强获得第二增强数据集;
依概率的窗口采样方式数据增强获得第三增强数据集。


3.如权利要求2所述的文本分类方法,其特征在于,依概率掩盖的文本数据增强包括如下步骤:
获取所述有监督数据集;
对所述有监督数据集中的每一条文本进行分词;
从所述每一条文本中的每一个词生成一个服从正态分布的概率;
以预先设置的概率将句子中原始单词替换为掩盖标签;
获得所述第一增强数据集。


4.如权利要求2所述的文本分类方法,其特征在于,依概率词性替换的文本数据增强包括如下步骤:
获取所述有监督数据集;
对所述有监督数据集中的每一条文本进行分词;
对所述有监督数据集中的所述每一条文本进行词性标注;
统计词性标注结果建立词性词典;
对所述每一条文本中每一个单词生成一个服从正态...

【专利技术属性】
技术研发人员:李晨辉于苗苗袁博
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1