一种数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号：30025168 阅读：27 留言：0更新日期：2021-09-11 06:54

本申请实施例公开了一种人工智能领域的数据处理方法、装置、设备及存储介质，其中该方法包括：获取目标弹幕的目标文本；通过第一弹幕识别模型，根据目标文本确定目标弹幕的第一识别结果；第一弹幕识别模型是基于包括第一训练文本及其对应的弱标注结果的第一训练样本训练得到的，弱标注结果是根据播放第一训练文本所属的弹幕后弹幕播放功能是否被关闭确定的；通过第二弹幕识别模型，根据目标文本确定目标弹幕的第二识别结果；第二弹幕识别模型是基于包括第二训练文本及其对应的强标注结果的第二训练样本训练得到的；根据第一识别结果和第二识别结果，确定目标弹幕的目标识别结果。该方法能够取得较好的不良弹幕识别效果，并且降低模型训练成本。并且降低模型训练成本。并且降低模型训练成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法、装置、设备及存储介质

[0001]本申请涉及人工智能（Artificial Intelligence，AI）
，尤其涉及一种数据处理方法、装置、设备及存储介质。

技术介绍

[0002]如今，很多网络视频播放平台均具有弹幕功能，即支持用户在观看视频的过程中编辑并发送其对于当前播放的视频的评论内容即弹幕，观看该视频的用户可以相应地看到其他用户发送的弹幕。在实际应用中，用户发送的弹幕良莠不齐，其中经常夹杂着包括不雅的内容、枯燥无聊的内容、令其他用户厌恶的内容等不良内容的弹幕，此类弹幕在业界又被称为不良弹幕；为了提高用户的视频观看体验，一些网络视频播放平台会识别用户发送的弹幕是否为不良弹幕，并对不良弹幕进行过滤处理，不向其他用户展示不良弹幕。
[0003]相关技术中，通常利用基于机器学习算法训练得到的不良弹幕识别模型，识别用户发送的弹幕是否为不良弹幕。若要通过该方法取得较好的不良弹幕识别效果，避免发生漏识别和误识别的情况，往往需要利用大量的标注样本训练不良弹幕识别模型，而这将耗费很高的标注成本，即模型训练成本较高。如何在保证不良弹幕识别效果的前提下降低模型训练成本，已成为目标亟待解决的问题。

技术实现思路

[0004]本申请实施例提供了一种数据处理方法、装置、设备及存储介质，能够在保证取得较好的不良弹幕识别效果的前提下，降低模型训练成本。
[0005]有鉴于此，本申请第一方面提供了一种数据处理方法，所述方法包括：获取待识别的目标弹幕的文本，作为目标文本；通过第一弹幕识别...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：获取待识别的目标弹幕的文本，作为目标文本；通过第一弹幕识别模型，根据所述目标文本，确定所述目标弹幕对应的第一识别结果；所述第一弹幕识别模型是基于第一训练样本训练得到的，所述第一训练样本包括第一训练文本及其对应的弱标注结果，所述弱标注结果是根据播放所述第一训练文本所属的弹幕后弹幕播放功能是否被关闭确定的；通过第二弹幕识别模型，根据所述目标文本，确定所述目标弹幕对应的第二识别结果；所述第二弹幕识别模型是基于第二训练样本训练得到的，所述第二训练样本包括第二训练文本及其对应的强标注结果，所述强标注结果用于表征所述第二训练文本所属的弹幕的标准类型；根据所述第一识别结果和所述第二识别结果，确定所述目标弹幕对应的目标识别结果；所述目标识别结果用于表征所述目标弹幕的类型。2.根据权利要求1所述的方法，其特征在于，所述第一训练样本还包括所述第一训练文本对应的功能关闭距离参数；若播放所述第一训练文本所属的弹幕后检测到所述弹幕播放功能被关闭，则所述弱标注结果用于表征所述第一训练文本所属的弹幕属于异常弹幕，所述功能关闭距离参数用于表征所述第一训练文本所属的弹幕与参考弹幕之间的距离，所述参考弹幕是所述弹幕播放功能被关闭前播放的最后一条弹幕；若播放所述第一训练文本所属的弹幕后未检测到所述弹幕播放功能被关闭，则所述弱标注结果用于表征所述第一训练文本所属的弹幕属于正常弹幕，所述功能关闭距离参数为正常弹幕距离参考值。3.根据权利要求2所述的方法，其特征在于，所述通过第一弹幕识别模型，根据所述目标文本，确定所述目标弹幕对应的第一识别结果，包括：获取参考功能关闭距离参数；所述参考功能关闭距离参数是根据训练所述第一弹幕识别模型时使用的所述第一训练样本中的所述功能关闭距离参数确定的；通过所述第一弹幕识别模型，根据所述目标文本和所述参考功能关闭距离参数，确定所述第一识别结果。4.根据权利要求1所述的方法，其特征在于，所述第一弹幕识别模型中包括第一初级特征提取结构和第一分类结构，所述第二弹幕识别模型中包括第二初级特征提取结构和第二分类结构；所述通过第一弹幕识别模型，根据所述目标文本，确定所述目标弹幕对应的第一识别结果，包括：通过所述第一初级特征提取结构，提取所述目标文本中各分词各自的初级词特征向量；通过所述第一分类结构，根据所述目标文本中各分词各自的初级词特征向量，确定所述第一识别结果；所述通过第二弹幕识别模型，根据所述目标文本，确定所述目标弹幕对应的第二识别结果，包括：通过所述第二初级特征提取结构，提取所述目标文本中各分词各自的初级词特征向量；通过所述第二分类结构，根据所述目标文本中各分词各自的初级词特征向量，确定所述
第二识别结果。5.根据权利要求4所述的方法，其特征在于，所述第一初级特征提取结构和所述第二初级特征提取结构中包括具有相同参数的目标共享结构；所述目标共享结构包括以下至少一种：所述第一初级特征提取结构和所述第二初级特征提取结构中的循环神经网络层、所述第一初级特征提取结构和所述第二初级特征提取结构中的全联通层。6.根据权利要求1所述的方法，其特征在于，所述第一弹幕识别模型和所述第二弹幕识别模型中包括参数共享的目标共享结构；通过以下方式训练所述第一弹幕识别模型和所述第二弹幕识别模型：通过第一初始弹幕识别模型，根据所述第一训练样本中的所述第一训练文本，确定第一预测结果；根据所述第一预测结果和所述第一训练样本中的所述弱标注结果，构建第一损失函数；并基于所述第一损失函数，训练所述第一初始弹幕识别模型；将所述第一初始弹幕识别模型中所述目标共享结构的参数，赋予给第二初始弹幕识别模型中的所述目标共享结构；通过所述第二初始弹幕识别模型，根据所述第二训练样本中的所述第二训练文本，确定第二预测结果；根据所述第二预测结果和所述第二训练样本中的所述强标注结果，构建第二损失函数；并基于所述第二损失函数，训练所述第二初始弹幕识别模型；将所述第二初始弹幕识别模型中所述目标共享结构的参数，赋予给所述第一初始弹幕识别模型中的所述目标共享结构；根据所述第一损失函数和所述第二损失函数，构建目标损失函数；基于所述目标损失函数，协同训练所述第一初始弹幕识别模型和所述第二初始弹幕识别模型。7.根据权利要求6所述的方法，其特征在于，所述方法还包括：获取待训练的文本分类模型以及第三训练样本；所述文本分类模型用于执行通用的文本分类任务，所述文本分类模型包括所述目标共享结构；所述第三训练样本包括第三训练文本及其对应的标注结果，所述标注结果用于表征所述第三训练文本在所述文本分类任务中的标准类型；通过所述文本分类模型，根据所述第三训练样本中的所述第三训练文本，确定第三预测结果；根据所述第三预测结果和所述第三训练样本中的标注结果，构建第三损失函数；并基于所述第三损失函数，训练所述文本分类模型；将所述文本分类模型中所述目标共享结构的参数，赋予给所述第一初始弹幕识别模型或者所述第二初始弹幕识别模型中的所述目标共享结构；则所述根据所述第一损失函数和所述第二损失函数，构建目标损失函数；基于所述目标损失函数，协同训练所述第一初始弹幕识别模型和所述第二初始弹幕识别模型，包括：根据所述第一损失函数、所述第二损失函数和所述第三损失函数，构建所述目标损失函数；基于所述目标损失函数，协同训练所述第一初始弹幕识别模型、所述第二初始弹幕识别模型和所述文本分类模型。8.根据权利要求6所述的方法，其特征在于，所述方法还包括：获取待训练的语义特征提取模型以及第四训练样本；所述语义特征提取模型用于提取文本中各分词各自的词特征向量，所述语义特征提取模型包括所述目标共享结构；所述第
四训练样本包括第四训练文本；通过所述语义特征提取模型，提取所述第四训练文本中各分词各自的预测词特征向量；针对所述第四训练文本中各目标分词确定其各自对应的正向相似词和反向相似词，根据所述第四训练文本中各所述目标分词各自的预测词特征向量、各所述目标分词各自对应的正向相似词的预测词特征向量、以及各所述目标分词各自对应的反向相似词的预测词特征向量，构建第四损失函数；并基于所述第四损失函数，训练...

【专利技术属性】
技术研发人员：司雪敏，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人