文本数据样本确定方法和文本数据处理模型确定方法技术

技术编号:39432034 阅读:41 留言:0更新日期:2023-11-19 16:16
本申请涉及一种文本数据样本确定方法

【技术实现步骤摘要】
文本数据样本确定方法和文本数据处理模型确定方法


[0001]本申请涉及人工智能
,特别是涉及一种文本数据样本确定方法

文本数据处理模型确定方法

文本数据处理方法

装置

计算机设备

存储介质和计算机程序产品


技术介绍

[0002]随着人工智能技术的发展,以及各类互联网应用程序的广泛使用,为提供安全健康的网络环境,需要对各互联网应用程序的传输信息进行识别

审核和判断等一系列处理

其中,传输信息具体可以包括应用程序上的显示信息,比如文章

评论

弹幕等信息

[0003]传统上中,通常采用预先训练好的信息审核判断模型,对应用程序上的显示信息,比如文章

评论

弹幕等信息,进行识别

以及审核判断处理,获得与各显示信息对应的审核判断结果,以根据相应的审核判断结果,确定该些显示信息是否符合本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种文本数据样本确定方法,其特征在于,所述方法包括:获取各初始文本数据

以及各所述初始文本数据对应的标签信息,并确定与各所述初始文本数据匹配的文本判断处理逻辑

以及待执行的文本处理任务;根据所述初始文本数据

所述标签信息

所述文本判断处理逻辑以及所述待执行的文本处理任务,构建得到文本处理任务提示信息;基于初始对话模型,对各所述文本处理任务提示信息进行文本识别处理和文本判断处理,获得各携带标注信息的文本数据样本;所述标注信息包括标签信息和判断依据信息,所述标注信息用于对初始对话模型进行训练,以获得训练好的文本数据处理模型
。2.
根据权利要求1所述的方法,其特征在于,确定与各所述初始文本数据匹配的文本判断处理逻辑

以及待执行的文本处理任务,包括:获取所述初始文本数据对应的文本识别场景,并根据所述文本识别场景确定与所述初始文本数据匹配的文本判断处理逻辑;根据所述文本判断处理逻辑,确定与所述初始文本数据对应的待执行的文本处理任务
。3.
根据权利要求1所述的方法,其特征在于,所述基于初始对话模型,对各所述文本处理任务提示信息进行文本识别处理和文本判断处理,获得各携带标注信息的文本数据样本,包括:基于所述初始对话模型,对各所述文本处理任务提示信息进行文本识别处理,获得与所述文本处理任务提示信息携带的初始文本数据

所述初始文本数据对应的标签信息和文本判断处理逻辑

以及待执行的文本处理任务;按照所述文本判断处理逻辑执行所述文本处理任务,对所述初始文本数据进行文本判断处理,获得与所述初始文本数据对应的文本判断结果

以及判断依据信息;根据所述初始文本数据对应的标签信息,对所述文本判断结果进行校验;若确定校验通过,基于所述初始文本数据

所述文本判断结果

所述标签信息以及所述判断依据信息,构建得到携带标注信息的文本数据样本
。4.
根据权利要求1至3任意一项所述的方法,其特征在于,所述携带标注信息的文本数据样本包括输入数据样本

以及与所述输入数据样本对应的输出数据样本;其中,所述输入数据样本包括:所述初始文本数据

与所述初始文本数据匹配的文本判断处理逻辑

以及待执行的文本处理任务;与所述输入数据样本对应的输出数据样本,包括:与所述初始文本数据对应的标签信息

判断依据信息以及文本判断结果
。5.
一种文本数据处理模型确定方法,其特征在于,所述方法包括:获取对文本处理任务提示信息进行文本识别处理和文本判断处理,所获得的各携带标注信息的文本数据样本;所述标注信息包括标签信息和判断依据信息;所述文本处理任务提示信息,是根据初始文本数据

所述初始文本数据对应的标签信息和文本判断处理逻辑

以及待执行的文本处理任务构建得到的;根据各所述文本数据样本,对初始对话模型进行训练,若确定满足训练结束条件,获得训练好的文本数据处理模型;其中,所述文本数据处理模型用于对各待处理文本数据进行文本识别处理和文本判断处理,获得对应的文本处理结果
。6.
根据权利要求5所述的方法,其特征在于,所述初始对话模型包括编码层

归一化层
以及前向层;所述携带标注信息的文本数据样本包括输入数据样本

以及与所述输入数据样本对应的输出数据样本;所述根据各所述文本数据样本,对初始对话模型进行训练,若确定满足训练结束条件,获得训练好的文本数据处理模型,包括:根据所述初始对话模型的编码层,对各所述输入数据样本进行词向量转换处理,获得与所述输入数据样本对应的各词向量,并对各所述词向量进行多头注意力编码处理,获得与各所述词向量对应的上下文信息向量;基于所述初始对话模型的归一化层,对各所述词向量及其对应的上下文信息向量,进行归一化处理,获得归一化后的初始文本向量;根据所述初始对话模型的前向层,对各所述初始文本向量进行前向编码处理,获得与所述初始文本向量对应的中间文本向量;基于所述初始对话模型的归一化层,对各所述中间文本向量进行再次归一化处理,获得归一化后的文本编码向量;根据所述文本编码向量

以及与所述文本编码向量对应的输出数据样本,确定模型训练损失函数值;若确定所述模型训练损失函数值满足训练结束条件,获得训练好的文本数据处理模型
。7.
根据权利要求6所述的方法,其特征在于,所述根据所述文本编码向量

以及与所述文本编码向量对应的输出数据样本,确定模型训练损失函数值,包括:确定与各所述文本编码向量对应的概率分布数据,并根据每一所述文本编...

【专利技术属性】
技术研发人员:刘庆斌张明昊李丽丽李博陈曦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1