【技术实现步骤摘要】
文本信息处理模型训练方法、装置、以及存储介质
[0001]本专利技术涉及文本信息处理技术,尤其涉及文本信息处理模型训练方法
、
文本信息处理方法
、
装置
、
电子设备
、
软件程序以及存储介质
。
技术介绍
[0002]文本信息处理的过程中,由于文本内容领域跨度大,所使用的文本信息分类的技术主要是基于长短期记忆网络
(LSTM
,
Long Short
‑
Term Memory)
,但若是文本信息较长,此种方法会损失到大量的关键信息,从而导致最后分类的效果较差;另外一种常用的技术是使用卷积神经网络
(CNN
,
Convolutional Neural Networks)
,使用
CNN
时由于具有的窗口特征,抽取具有不同跨度的特征,这种方式并行性较好,模型较易训练,但是无法把握词前后的关系,无法把握位置特征,同样影响文本信息分类的准确性
。
技术实现思路
[0003]有鉴于此,本专利技术实施例提供一种文本信息处理模型训练方法
、
文本信息处理方法
、
装置
、
电子设备
、
软件程序以及存储介质,能够实现通过预测概率分布信息和实际概率分布信息,调整文本处理模型的损失函数,节省文本处理模型的训练时间,提升文本处理模型的分类精确度,提升用户的使用体验
。< ...
【技术保护点】
【技术特征摘要】
1.
一种文本信息处理模型训练方法,其特征在于,所述方法包括:响应于文本信息处理请求,获取文本信息和标签信息;通过文本处理模型的文本预测网络,对所述文本信息进行概率预测处理,得到所述文本信息的文本嵌入特征向量和预测概率分布信息;通过所述文本处理模型的深度神经网络,对所述标签信息进行概率预测处理,得到所述标签信息的标签嵌入特征向量;通过所述文本处理模型的独热编码网络,对所述标签信息进行独热编码处理,得到所述标签信息的独热编码特征向量;基于所述文本嵌入特征向量
、
所述标签嵌入特征向量以及所述独热编码特征向量,计算实际概率分布信息;基于所述预测概率分布信息和所述实际概率分布信息,调整所述文本处理模型的损失函数,以实现通过所述文本处理模型得到待处理文本信息的分类结果
。2.
根据权利要求1所述的方法,其特征在于,所述通过所述文本处理模型的深度神经网络,对所述标签信息进行概率预测处理,得到所述标签信息的标签嵌入特征向量,包括:确定所述标签信息的类型数量;基于所述标签嵌入特征向量的索引信息,确定所述标签嵌入特征向量的维度数量;根据所述标签信息的类型数量和所述维度数量,计算所述标签信息的标签信息矩阵;通过所述深度神经网络的嵌入层网络,对所述标签信息矩阵进行概率预测处理,得到所述标签信息的标签嵌入特征向量
。3.
根据权利要求1所述的方法,其特征在于,所述基于所述文本嵌入特征向量
、
所述标签嵌入特征向量以及所述独热编码特征向量,计算实际概率分布信息,包括:计算所述文本嵌入特征向量和所述标签嵌入特征向量的乘积;对所述文本嵌入特征向量和所述标签嵌入特征向量的乘积进行非线性变换处理,得到所述文本嵌入特征向量的相似度;基于所述文本嵌入特征向量的相似度,对所述独热编码特征向量进行向量平滑处理,得到所述实际概率分布信息
。4.
根据权利要求1所述的方法,其特征在于,所述响应于文本信息处理请求,获取文本信息和标签信息,包括:解析所述文本信息处理请求,确定所述文本信息处理请求中所包括的目标对象和所述目标对象对应的金融场景;在所述金融场景中,确定所述目标对象的历史行为参数和所述金融场景的历史参数;基于所述目标对象,对所述目标对象的历史行为参数和所述金融场景的历史参数进行数据交叉筛选处理,获取与目标对象相匹配的文本信息;基于所述目标对象,对所述目标对象的历史行为参数和所述金融场景的历史参数进行数据交叉筛选处理,获取与目标对象相匹配的标签信息
。5.
根据权利要求1所述的方法,其特征在于,所述基于所述预测概率分布信息和所述实际概率分布信息,调整所述文本处理模型的损失函数,包括:基于所述预测概率分布信息和所述实际概率分布信息,计算所述文本处理模型的相对熵;
通过所述文本处理模型的相对熵,替代所述文本处理模型的交叉熵,以调整所述文本处理模型的损失函数
...
【专利技术属性】
技术研发人员:蒋乐怡,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。