【技术实现步骤摘要】
一种面向金融场景的端到端自然语言处理训练框架与方法
[0001]本专利技术涉及自然语言处理领域,尤其涉及一种面向金融场景的端到端自然语言处理训练框架与方法。
技术介绍
[0002]现代信息技术的高速发展使得互联网上所容纳的数据和信息呈现爆炸式增长。大量的数据是以文本的形式呈现,如各大互联网的网页数据,而大数据想要体现出数据的价值,就需要利用自然语言处理(Natural Language Processing,NLP)技术去挖掘文本的核心内容。在文本挖掘中,不同的领域都会有着丰富多样的自然语言处理任务,如在金融领域的自然语言处理任务包括文本分类、情感分析、文本聚类、实体识别、文本相似度计算、信息抽取等。每一类任务中又有很多细分场景,比如在实体识别中,既有公司和人物提取,也有产品、品牌提取,也有招投标中的关键实体提取等等。在情感分析中,除了常见的商品情感二分类以外,还需要对同一个商品进行多维度情感分析,比如商品价格、商品质量、商品外观等。可见,在金融领域NLP任务具有任务庞杂、异构等特点。
[0003]在常见的解决方案中 ...
【技术保护点】
【技术特征摘要】
1.一种面向金融场景的端到端自然语言处理训练框架,其特征在于,包括:Google原生BERT模块,所述Google原生BERT模块为所述训练框架的起点,包括Google原生BERT,并接收通用语料数据作为模块的输入;FinBERT预训练模块,所述FinBERT预训练模块连接所述Google原生BERT模块,用金融领域语料数据对所述Google原生BERT进行二次预训练,得到适用于金融领域的BERT,称为FinBERT;基于类似self
‑
training思想从外部相关数据中挖掘新数据模块,所述基于类似self
‑
training思想从外部相关数据中挖掘新数据模块连接所述FinBERT预训练模块,用TASK LABEL语料对所述FinBERT进行训练,得到TASK Model,并接收外部语料,生成TASK相关语料;下游任务语料上进行预训练模块,所述下游任务语料上进行预训练模块连接所述基于类似self
‑
training思想从外部相关数据中挖掘新数据模块,对所述FinBERT进行再一次的预训练,得到TASK FinBERT;用半监督学习的框架来充分利用无标签语料模块,所述用半监督学习的框架来充分利用无标签语料模块连接所述下游任务语料上进行预训练模块,通过接收所述TASK LABEL语料和所述TASK相关语料,在所述TASK FinBERT的基础上进行训练得到UDA FinBERT;知识蒸馏模块,所述知识蒸馏模块连接所述用半监督学习的框架来充分利用无标签语料模块,利用蒸馏技术将所述UDA FinBERT学习到的知识和特征蒸馏到轻量级模型上;线上部署模块,所述线上部署模块连接所述知识蒸馏模块,将所述轻量级模型部署上线,用于实际生产环境。2.如权利要求1所述的面向金融场景的端到端自然语言处理训练框架,其特征在于,所述Google原生BERT包括FinBERT
‑
Base和FinBERT
‑
Large;其中,所述FinBERT
‑
Base采用12层Transformer结构,所述FinBERT
‑
Large采用24层Transformer结构。3.如权利要求1所述的面向金融场景的端到端自然语言处理训练框架,其特征在于,所述FinBERT的训练方式包括采用字词级别的预训练和任务级别的预训练。4.如权利要求1所述的面向金融场景的端到端自然语言处理训练框架,其特征在于,所述知识蒸馏模块包括教师模型和学生模型,将所述教师模型的输出结果作为知识,让所述学生模型去拟合,从而将所述教师模型学习到的所述知识转移到所述学生模型上,其中,所述教师模型是大参数量模型,所述学生模型是轻量级的小模型,即所述轻量级模型。5.如权利要求4所述的面向金融场景的端到端自然语言处理训练框架,其特征在于,所述知识包括软标签和硬标签;所述软标签包括Logits,或者概率值;所述硬标签为将所述概率值求Argmax后得到的One
‑
hot标签;当使用所述Logits作为知识的时候,损失函数选择MSE;当使用所述概率值作为知识的时候,选择KL散度作为损失函数;当使用所述硬标签作为知识时,选择交叉熵作为损失函数。6.如权利要求5所述的面向金融场景的端到端自然语言处理训练框架,其特征在于,当使用所述概率值作为知识的时候,引入温度超参数;所述温度超参数用...
【专利技术属性】
技术研发人员:付志兵,张梦超,李渔,费斌杰,
申请(专利权)人:北京熵简科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。