文本模型的训练方法、装置、及设备制造方法及图纸

技术编号:37669121 阅读:30 留言:0更新日期:2023-05-26 04:29
本申请的实施例提供了一种文本模型的训练方法、装置、及设备,该方法包括:获取训练样本集;将训练样本集,代入预训练完成的词典增强语言特征模型,获取多个特征向量;将多个特征向量进行融合,获取目标向量;根据目标向量,获取损失函数直到完成训练,以获取文本模型。本方案中,通过将训练样本集代入预训练完成的词典增强语言特征模型,一方面通过引入词典增强语言特征模型、另一方面进行词条预测训练和对比学习训练,该方法增强了模型的表达能力,可以提高所获取的文本模型对文本处理的准确性。性。性。

【技术实现步骤摘要】
文本模型的训练方法、装置、及设备


[0001]本申请涉及一种人工智能
,具体而言,涉及一种文本模型的训练方法、装置、及设备。

技术介绍

[0002]随着人工智能技术的发展,自然语言处理技术有了更多的应用场景。例如在语义相似度、文本分类、问答系统、情感分析、机器翻译等方面有广泛的应用。
[0003]现有技术中,在进行文本处理时,通常基于单一模型直接应用,例如,通过统计词频、句法分析等手段得到文本的向量化表示,然后计算相似度,从而得到相似度最高的文本。
[0004]但是,上述方法往往只考虑词频等特征,且存在语义过于稀疏的问题,因此,对文本处理的准确性不高。

技术实现思路

[0005]本申请的目的在于,针对上述现有技术中的不足,提供一种文本模型的训练方法、装置、及设备,以解决现有技术中存在文本处理准确性不高的问题。
[0006]为实现上述目的,本申请实施例采用的技术方案如下:
[0007]第一方面,本申请一实施例提供了一种文本模型的训练方法,所述方法包括:
[0008]获取训练样本集,所述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本模型的训练方法,其特征在于,包括:获取训练样本集,所述训练样本集包括:标注好的文本样本;将所述训练样本集,代入预训练完成的词典增强语言特征模型,获取多个特征向量;所述词典增强语言特征模型通过词条预测训练、对比学习训练获取,所述词条预测训练用于训练例句中的标记预测的词条,所述对比学习训练用于训练词条含义间的关系;将多个所述特征向量进行融合,获取目标向量;根据所述目标向量,获取损失函数直到完成训练,以获取文本模型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:从预设词典中,提取原始文本,所述原始文本包括:词条、每个所述词条对应的释义和例句;根据所述原始文本以及词条预测规则,生成词条预测样本集;根据所述原始文本以及对比学习规则,生成对比学习样本集。3.根据权利要求2所述的方法,其特征在于,所述根据所述原始文本以及词条预测规则,生成词条预测样本集之后,还包括:将所述词条预测样本集代入初始词典增强语言特征模型进行训练,获取预测词条;根据第一损失函数以及所述预测词条,计算获取第一损失参数。4.根据权利要求3所述的方法,其特征在于,所述根据所述原始文本以及对比学习规则,生成对比学习样本集之后,还包括:将所述对比学习样本集代入初始词典增强语言特征模型进行训练,并根据第二损失函数计算获取第二损失参数。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:根据所述第一损失参数、所述第二损失参数,反向优化所述初始词典增强语言特征模型的参数,获取预训练完成的所述词典增强语言特征模型。6.根据权利要求1所述的方法,其特征在于,所述将所述训练样本集,代入预训练完成的词典增强语言特征模型之前,还包括:将所述训练样本集中的文本剔除停用...

【专利技术属性】
技术研发人员:蔡志伟杜新凯吕超纪诚姚雷
申请(专利权)人:阳光保险集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1