文本信息处理模型训练方法技术

技术编号:39565897 阅读:4 留言:0更新日期:2023-12-03 19:16
本发明专利技术提供了一种文本信息处理模型训练方法

【技术实现步骤摘要】
文本信息处理模型训练方法、装置、以及存储介质


[0001]本专利技术涉及文本信息处理技术,尤其涉及文本信息处理模型训练方法

文本信息处理方法

装置

电子设备

软件程序以及存储介质


技术介绍

[0002]文本信息处理的过程中,由于文本内容领域跨度大,所使用的文本信息分类的技术主要是基于长短期记忆网络
(LSTM

Long Short

Term Memory)
,但若是文本信息较长,此种方法会损失到大量的关键信息,从而导致最后分类的效果较差;另外一种常用的技术是使用卷积神经网络
(CNN

Convolutional Neural Networks)
,使用
CNN
时由于具有的窗口特征,抽取具有不同跨度的特征,这种方式并行性较好,模型较易训练,但是无法把握词前后的关系,无法把握位置特征,同样影响文本信息分类的准确性


技术实现思路

[0003]有鉴于此,本专利技术实施例提供一种文本信息处理模型训练方法

文本信息处理方法

装置

电子设备

软件程序以及存储介质,能够实现通过预测概率分布信息和实际概率分布信息,调整文本处理模型的损失函数,节省文本处理模型的训练时间,提升文本处理模型的分类精确度,提升用户的使用体验
。<br/>[0004]本专利技术实施例的技术方案是这样实现的:
[0005]本专利技术实施例提供了一种文本信息处理模型训练方法,包括:
[0006]响应于文本信息处理请求,获取文本信息和标签信息;
[0007]通过文本处理模型的文本预测网络,对所述文本信息进行概率预测处理,得到所述文本信息的文本嵌入特征向量和预测概率分布信息;
[0008]通过所述文本处理模型的深度神经网络,对所述标签信息进行概率预测处理,得到所述标签信息的标签嵌入特征向量;
[0009]通过所述文本处理模型的独热编码网络,对所述标签信息进行独热编码处理,得到所述标签信息的独热编码特征向量;
[0010]基于所述文本嵌入特征向量

所述标签嵌入特征向量以及所述独热编码特征向量,计算实际概率分布信息;
[0011]基于所述预测概率分布信息和所述实际概率分布信息,调整所述文本处理模型的损失函数,以实现通过所述文本处理模型得到待处理文本信息的分类结果

[0012]本专利技术实施例还提供了一种文本信息处理方法,包括:
[0013]获取待处理的文本信息;
[0014]通过文本处理模型的编码器,确定与所述待处理文本信息所对应的至少一个词语级的隐变量;
[0015]通过所述文本处理模型的解码器,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的文本分类结果以及所述文本分类结果的被选取概率;
[0016]根据所述文本分类结果的被选取概率,选取至少一个文本分类结果

[0017]本专利技术实施例还提供了一种文本信息处理模型训练装置,包括:
[0018]信息传输模块,用于响应于文本信息处理请求,获取文本信息和标签信息;
[0019]信息处理模块,用于通过文本处理模型的文本预测网络,对所述文本信息进行概率预测处理,得到所述文本信息的文本嵌入特征向量和预测概率分布信息;
[0020]所述信息处理模块,用于通过所述文本处理模型的深度神经网络,对所述标签信息进行概率预测处理,得到所述标签信息的标签嵌入特征向量;
[0021]所述信息处理模块,用于通过所述文本处理模型的独热编码网络,对所述标签信息进行独热编码处理,得到所述标签信息的独热编码特征向量;
[0022]所述信息处理模块,用于基于所述文本嵌入特征向量

所述标签嵌入特征向量以及所述独热编码特征向量,计算实际概率分布信息;
[0023]所述信息处理模块,用于基于所述预测概率分布信息和所述实际概率分布信息,调整所述文本处理模型的损失函数,以实现通过所述文本处理模型得到待处理文本信息的分类结果

[0024]上述方案中,
[0025]所述信息处理模块,用于确定所述标签信息的类型数量;
[0026]所述信息处理模块,用于基于所述标签嵌入特征向量的索引信息,确定所述标签嵌入特征向量的维度数量;
[0027]所述信息处理模块,用于根据所述标签信息的类型数量和所述维度数量,计算所述标签信息的标签信息矩阵;
[0028]所述信息处理模块,用于通过所述深度神经网络的嵌入层网络,对所述标签信息矩阵进行概率预测处理,得到所述标签信息的标签嵌入特征向量

[0029]上述方案中,
[0030]所述信息处理模块,用于计算所述文本嵌入特征向量和所述标签嵌入特征向量的乘积;
[0031]所述信息处理模块,用于对所述文本嵌入特征向量和所述标签嵌入特征向量的乘积进行非线性变换处理,得到所述文本嵌入特征向量的相似度;
[0032]所述信息处理模块,用于基于所述文本嵌入特征向量的相似度,对所述独热编码特征向量进行向量平滑处理,得到所述实际概率分布信息

[0033]上述方案中,
[0034]所述信息处理模块,用于解析所述文本信息处理请求,确定所述文本信息处理请求中所包括的目标对象和所述目标对象对应的金融场景;
[0035]所述信息处理模块,用于在所述金融场景中,确定所述目标对象的历史行为参数和所述金融场景的历史参数;
[0036]所述信息处理模块,用于基于所述目标对象,对所述目标对象的历史行为参数和所述金融场景的历史参数进行数据交叉筛选处理,获取与目标对象相匹配的文本信息;
[0037]所述信息处理模块,用于基于所述目标对象,对所述目标对象的历史行为参数和所述金融场景的历史参数进行数据交叉筛选处理,获取与目标对象相匹配的标签信息

[0038]上述方案中,
[0039]所述信息处理模块,用于基于所述预测概率分布信息和所述实际概率分布信息,计算所述文本处理模型的相对熵;
[0040]所述信息处理模块,用于通过所述文本处理模型的相对熵,替代所述文本处理模型的交叉熵,以调整所述文本处理模型的损失函数

[0041]本专利技术实施例还提供了一种文本信息处理装置,包括:
[0042]数据传输模块,用于获取待处理的文本信息;
[0043]数据处理模块,通过文本处理模型的编码器,确定与所述待处理文本信息所对应的至少一个词语级的隐变量;
[0044]所述数据处理模块,通过所述文本处理模型的解码器,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的文本分类结果以及所述文本分类结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本信息处理模型训练方法,其特征在于,所述方法包括:响应于文本信息处理请求,获取文本信息和标签信息;通过文本处理模型的文本预测网络,对所述文本信息进行概率预测处理,得到所述文本信息的文本嵌入特征向量和预测概率分布信息;通过所述文本处理模型的深度神经网络,对所述标签信息进行概率预测处理,得到所述标签信息的标签嵌入特征向量;通过所述文本处理模型的独热编码网络,对所述标签信息进行独热编码处理,得到所述标签信息的独热编码特征向量;基于所述文本嵌入特征向量

所述标签嵌入特征向量以及所述独热编码特征向量,计算实际概率分布信息;基于所述预测概率分布信息和所述实际概率分布信息,调整所述文本处理模型的损失函数,以实现通过所述文本处理模型得到待处理文本信息的分类结果
。2.
根据权利要求1所述的方法,其特征在于,所述通过所述文本处理模型的深度神经网络,对所述标签信息进行概率预测处理,得到所述标签信息的标签嵌入特征向量,包括:确定所述标签信息的类型数量;基于所述标签嵌入特征向量的索引信息,确定所述标签嵌入特征向量的维度数量;根据所述标签信息的类型数量和所述维度数量,计算所述标签信息的标签信息矩阵;通过所述深度神经网络的嵌入层网络,对所述标签信息矩阵进行概率预测处理,得到所述标签信息的标签嵌入特征向量
。3.
根据权利要求1所述的方法,其特征在于,所述基于所述文本嵌入特征向量

所述标签嵌入特征向量以及所述独热编码特征向量,计算实际概率分布信息,包括:计算所述文本嵌入特征向量和所述标签嵌入特征向量的乘积;对所述文本嵌入特征向量和所述标签嵌入特征向量的乘积进行非线性变换处理,得到所述文本嵌入特征向量的相似度;基于所述文本嵌入特征向量的相似度,对所述独热编码特征向量进行向量平滑处理,得到所述实际概率分布信息
。4.
根据权利要求1所述的方法,其特征在于,所述响应于文本信息处理请求,获取文本信息和标签信息,包括:解析所述文本信息处理请求,确定所述文本信息处理请求中所包括的目标对象和所述目标对象对应的金融场景;在所述金融场景中,确定所述目标对象的历史行为参数和所述金融场景的历史参数;基于所述目标对象,对所述目标对象的历史行为参数和所述金融场景的历史参数进行数据交叉筛选处理,获取与目标对象相匹配的文本信息;基于所述目标对象,对所述目标对象的历史行为参数和所述金融场景的历史参数进行数据交叉筛选处理,获取与目标对象相匹配的标签信息
。5.
根据权利要求1所述的方法,其特征在于,所述基于所述预测概率分布信息和所述实际概率分布信息,调整所述文本处理模型的损失函数,包括:基于所述预测概率分布信息和所述实际概率分布信息,计算所述文本处理模型的相对熵;
通过所述文本处理模型的相对熵,替代所述文本处理模型的交叉熵,以调整所述文本处理模型的损失函数
...

【专利技术属性】
技术研发人员:蒋乐怡
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1