一种数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:30025168 阅读:27 留言:0更新日期:2021-09-11 06:54
本申请实施例公开了一种人工智能领域的数据处理方法、装置、设备及存储介质,其中该方法包括:获取目标弹幕的目标文本;通过第一弹幕识别模型,根据目标文本确定目标弹幕的第一识别结果;第一弹幕识别模型是基于包括第一训练文本及其对应的弱标注结果的第一训练样本训练得到的,弱标注结果是根据播放第一训练文本所属的弹幕后弹幕播放功能是否被关闭确定的;通过第二弹幕识别模型,根据目标文本确定目标弹幕的第二识别结果;第二弹幕识别模型是基于包括第二训练文本及其对应的强标注结果的第二训练样本训练得到的;根据第一识别结果和第二识别结果,确定目标弹幕的目标识别结果。该方法能够取得较好的不良弹幕识别效果,并且降低模型训练成本。并且降低模型训练成本。并且降低模型训练成本。

【技术实现步骤摘要】
一种数据处理方法、装置、设备及存储介质


[0001]本申请涉及人工智能(Artificial Intelligence,AI)
,尤其涉及一种数据处理方法、装置、设备及存储介质。

技术介绍

[0002]如今,很多网络视频播放平台均具有弹幕功能,即支持用户在观看视频的过程中编辑并发送其对于当前播放的视频的评论内容即弹幕,观看该视频的用户可以相应地看到其他用户发送的弹幕。在实际应用中,用户发送的弹幕良莠不齐,其中经常夹杂着包括不雅的内容、枯燥无聊的内容、令其他用户厌恶的内容等不良内容的弹幕,此类弹幕在业界又被称为不良弹幕;为了提高用户的视频观看体验,一些网络视频播放平台会识别用户发送的弹幕是否为不良弹幕,并对不良弹幕进行过滤处理,不向其他用户展示不良弹幕。
[0003]相关技术中,通常利用基于机器学习算法训练得到的不良弹幕识别模型,识别用户发送的弹幕是否为不良弹幕。若要通过该方法取得较好的不良弹幕识别效果,避免发生漏识别和误识别的情况,往往需要利用大量的标注样本训练不良弹幕识别模型,而这将耗费很高的标注成本,即模型训练成本较高。如何在保证不良弹幕识别效果的前提下降低模型训练成本,已成为目标亟待解决的问题。

技术实现思路

[0004]本申请实施例提供了一种数据处理方法、装置、设备及存储介质,能够在保证取得较好的不良弹幕识别效果的前提下,降低模型训练成本。
[0005]有鉴于此,本申请第一方面提供了一种数据处理方法,所述方法包括:获取待识别的目标弹幕的文本,作为目标文本;通过第一弹幕识别模型,根据所述目标文本,确定所述目标弹幕对应的第一识别结果;所述第一弹幕识别模型是基于第一训练样本训练得到的,所述第一训练样本包括第一训练文本及其对应的弱标注结果,所述弱标注结果是根据播放所述第一训练文本所属的弹幕后弹幕播放功能是否被关闭确定的;通过第二弹幕识别模型,根据所述目标文本,确定所述目标弹幕对应的第二识别结果;所述第二弹幕识别模型是基于第二训练样本训练得到的,所述第二训练样本包括第二训练文本及其对应的强标注结果,所述强标注结果用于表征所述第二训练文本所属的弹幕的标准类型;根据所述第一识别结果和所述第二识别结果,确定所述目标弹幕对应的目标识别结果;所述目标识别结果用于表征所述目标弹幕的类型。
[0006]本申请第二方面提供了一种数据处理装置,所述装置包括:文本获取模块,用于获取待识别的目标弹幕的文本,作为目标文本;第一识别模块,用于通过第一弹幕识别模型,根据所述目标文本,确定所述目标弹幕对应的第一识别结果;所述第一弹幕识别模型是基于第一训练样本训练得到的,所述第
一训练样本包括第一训练文本及其对应的弱标注结果,所述弱标注结果是根据播放所述第一训练文本所属的弹幕后弹幕播放功能是否被关闭确定的;第二识别模块,用于通过第二弹幕识别模型,根据所述目标文本,确定所述目标弹幕对应的第二识别结果;所述第二弹幕识别模型是基于第二训练样本训练得到的,所述第二训练样本包括第二训练文本及其对应的强标注结果,所述强标注结果用于表征所述第二训练文本所属的弹幕的标准类型;类型确定模块,用于根据所述第一识别结果和所述第二识别结果,确定所述目标弹幕对应的目标识别结果;所述目标识别结果用于表征所述目标弹幕的类型。
[0007]本申请第三方面提供了一种设备,所述设备包括处理器以及存储器:所述存储器用于存储计算机程序;所述处理器用于根据所述计算机程序,执行如上述第一方面所述的数据处理方法的步骤。
[0008]本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面所述的数据处理方法的步骤。
[0009]本申请第五方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面所述的数据处理方法的步骤。
[0010]从以上技术方案可以看出,本申请实施例具有以下优点:在本申请实施例提供的数据处理方法中,针对待识别的目标弹幕,先获取该目标弹幕的文本作为目标文本;然后,分别利用第一弹幕识别模型和第二弹幕识别模型,根据该目标文本,确定该目标弹幕对应的第一识别结果和第二识别结果;进而,综合考虑该目标弹幕对应的第一识别结果和第二识别结果,确定该目标弹幕是否属于不良弹幕。上述第一弹幕识别模型是基于通过弱标注方式标注的第一训练样本训练得到的,上述第二弹幕识别模型是基于通过强标注方式标注的第二训练样本训练得到的;弱标注方式指的是根据训练样本中训练文本所属的弹幕被播放后是否检测到用户关闭弹幕播放功能,来标注该训练文本所属的弹幕是否属于不良弹幕,相比强标注方式(如人工标注),通过弱标注方式标注训练样本所需耗费的成本更低,更易标注出大量的训练样本,因而可以在耗费较低成本的条件下训练出具有较优模型性能的第一弹幕识别模型。在使用第一弹幕识别模型辅助识别弹幕的类型的条件下,可以适当地降低对于第二弹幕识别模型的要求,即可以减少训练该第二弹幕识别模型时所使用的训练样本的数量,从而降低该第二弹幕识别模型的训练成本。如此,综合使用第一弹幕识别模型和第二弹幕识别模型识别不良弹幕,既不需要在模型训练阶段消耗较高的模型训练成本,又可以保证取得较好的识别效果。
附图说明
[0011]图1为本申请实施例提供的数据处理方法的应用场景示意图;图2为本申请实施例提供的数据处理方法的流程示意图;图3为本申请实施例提供的第一弹幕识别模型的工作原理示意图;图4为本申请实施例提供的第二弹幕识别模型的工作原理示意图;
图5为本申请实施例提供的第一种弹幕识别模型训练方法的流程示意图;图6为本申请实施例提供的第二种弹幕识别模型训练方法的流程示意图;图7为本申请实施例提供的文本分类模型的工作原理示意图;图8为本申请实施例提供的第三种弹幕识别模型训练方法的流程示意图;图9为本申请实施例提供的语义特征提取模型的工作原理示意图;图10为本申请实施例提供的第四种弹幕识别模型训练方法的流程示意图;图11为本申请实施例提供的模型训练框架示意图;图12为本申请实施例提供的数据处理装置的结构示意图;图13为本申请实施例提供的终端设备的结构示意图;图14为本申请实施例提供的服务器的结构示意图。
具体实施方式
[0012]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0013]本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取待识别的目标弹幕的文本,作为目标文本;通过第一弹幕识别模型,根据所述目标文本,确定所述目标弹幕对应的第一识别结果;所述第一弹幕识别模型是基于第一训练样本训练得到的,所述第一训练样本包括第一训练文本及其对应的弱标注结果,所述弱标注结果是根据播放所述第一训练文本所属的弹幕后弹幕播放功能是否被关闭确定的;通过第二弹幕识别模型,根据所述目标文本,确定所述目标弹幕对应的第二识别结果;所述第二弹幕识别模型是基于第二训练样本训练得到的,所述第二训练样本包括第二训练文本及其对应的强标注结果,所述强标注结果用于表征所述第二训练文本所属的弹幕的标准类型;根据所述第一识别结果和所述第二识别结果,确定所述目标弹幕对应的目标识别结果;所述目标识别结果用于表征所述目标弹幕的类型。2.根据权利要求1所述的方法,其特征在于,所述第一训练样本还包括所述第一训练文本对应的功能关闭距离参数;若播放所述第一训练文本所属的弹幕后检测到所述弹幕播放功能被关闭,则所述弱标注结果用于表征所述第一训练文本所属的弹幕属于异常弹幕,所述功能关闭距离参数用于表征所述第一训练文本所属的弹幕与参考弹幕之间的距离,所述参考弹幕是所述弹幕播放功能被关闭前播放的最后一条弹幕;若播放所述第一训练文本所属的弹幕后未检测到所述弹幕播放功能被关闭,则所述弱标注结果用于表征所述第一训练文本所属的弹幕属于正常弹幕,所述功能关闭距离参数为正常弹幕距离参考值。3.根据权利要求2所述的方法,其特征在于,所述通过第一弹幕识别模型,根据所述目标文本,确定所述目标弹幕对应的第一识别结果,包括:获取参考功能关闭距离参数;所述参考功能关闭距离参数是根据训练所述第一弹幕识别模型时使用的所述第一训练样本中的所述功能关闭距离参数确定的;通过所述第一弹幕识别模型,根据所述目标文本和所述参考功能关闭距离参数,确定所述第一识别结果。4.根据权利要求1所述的方法,其特征在于,所述第一弹幕识别模型中包括第一初级特征提取结构和第一分类结构,所述第二弹幕识别模型中包括第二初级特征提取结构和第二分类结构;所述通过第一弹幕识别模型,根据所述目标文本,确定所述目标弹幕对应的第一识别结果,包括:通过所述第一初级特征提取结构,提取所述目标文本中各分词各自的初级词特征向量;通过所述第一分类结构,根据所述目标文本中各分词各自的初级词特征向量,确定所述第一识别结果;所述通过第二弹幕识别模型,根据所述目标文本,确定所述目标弹幕对应的第二识别结果,包括:通过所述第二初级特征提取结构,提取所述目标文本中各分词各自的初级词特征向量;通过所述第二分类结构,根据所述目标文本中各分词各自的初级词特征向量,确定所述
第二识别结果。5.根据权利要求4所述的方法,其特征在于,所述第一初级特征提取结构和所述第二初级特征提取结构中包括具有相同参数的目标共享结构;所述目标共享结构包括以下至少一种:所述第一初级特征提取结构和所述第二初级特征提取结构中的循环神经网络层、所述第一初级特征提取结构和所述第二初级特征提取结构中的全联通层。6.根据权利要求1所述的方法,其特征在于,所述第一弹幕识别模型和所述第二弹幕识别模型中包括参数共享的目标共享结构;通过以下方式训练所述第一弹幕识别模型和所述第二弹幕识别模型:通过第一初始弹幕识别模型,根据所述第一训练样本中的所述第一训练文本,确定第一预测结果;根据所述第一预测结果和所述第一训练样本中的所述弱标注结果,构建第一损失函数;并基于所述第一损失函数,训练所述第一初始弹幕识别模型;将所述第一初始弹幕识别模型中所述目标共享结构的参数,赋予给第二初始弹幕识别模型中的所述目标共享结构;通过所述第二初始弹幕识别模型,根据所述第二训练样本中的所述第二训练文本,确定第二预测结果;根据所述第二预测结果和所述第二训练样本中的所述强标注结果,构建第二损失函数;并基于所述第二损失函数,训练所述第二初始弹幕识别模型;将所述第二初始弹幕识别模型中所述目标共享结构的参数,赋予给所述第一初始弹幕识别模型中的所述目标共享结构;根据所述第一损失函数和所述第二损失函数,构建目标损失函数;基于所述目标损失函数,协同训练所述第一初始弹幕识别模型和所述第二初始弹幕识别模型。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:获取待训练的文本分类模型以及第三训练样本;所述文本分类模型用于执行通用的文本分类任务,所述文本分类模型包括所述目标共享结构;所述第三训练样本包括第三训练文本及其对应的标注结果,所述标注结果用于表征所述第三训练文本在所述文本分类任务中的标准类型;通过所述文本分类模型,根据所述第三训练样本中的所述第三训练文本,确定第三预测结果;根据所述第三预测结果和所述第三训练样本中的标注结果,构建第三损失函数;并基于所述第三损失函数,训练所述文本分类模型;将所述文本分类模型中所述目标共享结构的参数,赋予给所述第一初始弹幕识别模型或者所述第二初始弹幕识别模型中的所述目标共享结构;则所述根据所述第一损失函数和所述第二损失函数,构建目标损失函数;基于所述目标损失函数,协同训练所述第一初始弹幕识别模型和所述第二初始弹幕识别模型,包括:根据所述第一损失函数、所述第二损失函数和所述第三损失函数,构建所述目标损失函数;基于所述目标损失函数,协同训练所述第一初始弹幕识别模型、所述第二初始弹幕识别模型和所述文本分类模型。8.根据权利要求6所述的方法,其特征在于,所述方法还包括:获取待训练的语义特征提取模型以及第四训练样本;所述语义特征提取模型用于提取文本中各分词各自的词特征向量,所述语义特征提取模型包括所述目标共享结构;所述第
四训练样本包括第四训练文本;通过所述语义特征提取模型,提取所述第四训练文本中各分词各自的预测词特征向量;针对所述第四训练文本中各目标分词确定其各自对应的正向相似词和反向相似词,根据所述第四训练文本中各所述目标分词各自的预测词特征向量、各所述目标分词各自对应的正向相似词的预测词特征向量、以及各所述目标分词各自对应的反向相似词的预测词特征向量,构建第四损失函数;并基于所述第四损失函数,训练...

【专利技术属性】
技术研发人员:司雪敏
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1