【技术实现步骤摘要】
金融文本的分类方法、装置及计算机设备
[0001]本申请涉及金融数据处理
,尤其涉及到一种金融文本的分类方法、装置及计算机设备。
技术介绍
[0002]在互联网飞速发展的今天,人们在各个方面对文本信息获取的要求越来越高。随着金融行业的蓬勃发展,金融行业对金融文本的分类划分提出了更高的要求,迫切要求更高效更便捷的方式来实现对金融文本的分类处理。
[0003]目前在对金融文本进行分类时,往往采用通用预训练模型在金融文本中精调的传统方法,然而金融垂直领域语言和通用语言模型中的语料库存在较大差异,且基于语言模型精调的传统方法无法较好地利用无标注样本,而现实中样本的标注成本较高,标注难度较大。此外,预训练模型较大较深,其训练和预测时间较长,对硬件要求较高,进而导致金融文本分类效果不佳。
技术实现思路
[0004]有鉴于此,本申请提供了一种金融文本的分类方法、装置及计算机设备,主要解决目前在对金融文本进行分类时,样本标注难度较大,训练和预测时间较长,对硬件要求较高,且存在金融文本分类效果不佳的技术问题。r/>[0005]根本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种金融文本的分类方法,其特征在于,包括:基于FinBERT预训练模型、自蒸馏算法以及数据增强算法,训练用于对金融文本进行分类处理的文本分类模型;利用符合预设训练标准的文本分类型模型,并基于样本自适应机制对目标金融文本进行文本分类处理,获取文本分类结果。2.根据权利要求1所述的方法,其特征在于,所述基于FinBERT预训练模型、自蒸馏算法以及数据增强算法,训练用于对金融文本进行分类处理的文本分类模型,具体包括:基于标签样本对FinBERT预训练模型进行精调,更新主干参数;对更新所述主干参数的FinBERT预训练模型的网络结构进行调整,得到文本分类模型;根据自蒸馏算法以及数据增强算法,并基于无标签样本训练所述文本分类模型,计算损失函数;若判断所述损失函数处于收敛状态,则确定所述文本分类型模型符合预设训练标准。3.根据权利要求2所述的方法,其特征在于,所述对更新所述主干参数的FinBERT预训练模型的网络结构进行调整,得到文本分类模型,具体包括:在所述FinBERT预训练模型的每层Transformer后面添加分支分类器,得到文本分类模型。4.根据权利要求3所述的方法,其特征在于,所述根据自蒸馏算法以及数据增强算法,并基于无标签样本训练所述文本分类模型,计算损失函数,具体包括:将无标签样本输入所述文本分类模型中,并利用所述分支分类器蒸馏主干分类器的概率分布距离,计算得到第一损失项;比对所述分支分类器中数据增强前后的概率分布距离,计算得到第二损失项;将所述第一损失项和所述第二损失项的加和确定为所述文本分类模型训练时的损失函数。5.根据权利要求4所述的方法,其特征在于,所述将无标签样本输入所述文本分类模型中,并利用所述分支分类器蒸...
【专利技术属性】
技术研发人员:朱雯文,
申请(专利权)人:大箴杭州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。