一种结合上下文语境的视频弹幕文本审核方法及系统技术方案

技术编号:26598907 阅读:28 留言:0更新日期:2020-12-04 21:21
本发明专利技术公开一种结合上下文语境的视频弹幕文本审核方法,所述方法采用多级审核模式,具体包括:敏感词扩展审核、语义分类审核、上下文语境审核,所述上下文语境审核包括上下文视频语境审核和上下文文本语境审核,本发明专利技术还公开一种结合上下文语境的视频弹幕文本审核系统,利用本发明专利技术公开的方法和系统,审核手段多样化,且结合视频和文本双通道上下文语境信息的多重审核,从而弥补了现有技术不能应对弹幕文本本身信息量不足的缺点,克服了通常方法对视频弹幕文本审核的准确率低的缺陷,确保了视频弹幕文本的审核结果更加准确可靠,故具有明显的技术优势和有益效果。

【技术实现步骤摘要】
一种结合上下文语境的视频弹幕文本审核方法及系统
本专利技术涉及一种文本审核方法,尤其涉及一种结合上下文语境的视频弹幕文本审核方法。
技术介绍
信息化时代,网络视频、微博、微信、聊天社区等诸多的网络媒体、社交平台源源不断地产生着多样化的用户交互数据如视频弹幕、评论等,这给有效的信息审核和监管带来了挑战。在上述文本数据类型中,弹幕文本由于具有长度短、信息量不足等特点,往往会发生同一条视频弹幕文本在不同的上下文语境下所表达的意思完全不同的情况,因此,对于该类型文本的审核显然更加困难且更具挑战性。目前的视频弹幕文本审核方法通常是直接对视频弹幕文本本身进行审核,显而易见,因上下文语境的缺失通常会导致对于较短的视频弹幕文本不能获得可靠的审核结果。
技术实现思路
本专利技术为解决现有技术存在的弹幕文本分析能力的不足,提出一种视频弹幕文本审核的解决方案,目的是增强弹幕文本审核结果的可靠性。为了实现以上目的,本专利技术设计了一种结合上下文语境的视频弹幕文本审核方法,所述方法包括:获取待审核的视频弹幕文本作为目标审核文本;敏感词扩展审核步骤:采用分词方法对所述的目标审核文本进行分词处理,获得所述目标审核文本的文本片段列表,将所述文本片段列表与预设的敏感词特征库进行比对匹配,获得匹配结果,匹配成功则所述敏感词扩展审核步骤结束,匹配失败则需继续下一步审核;语义审核步骤:将需要进一步审核的目标审核文本输入训练好的语义分类模型,获得判定结果,根据所述判定结果,为视频弹幕文本增加语义分类标注,根据所述语义分类标注,确定需进一步审核的目标审核文本;上下文语境审核步骤:获取所述目标审核文本的上下文语境信息,基于上下文语境审核对所述的上下文语境信息进行检测分析,获得审核结果。优选的,所述的上下文语境信息包括:所述视频弹幕文本对应的视频帧的目标结构化信息、场景分类信息,所述视频弹幕文本对应一定时间范围内视频的事件结构化信息,所述视频弹幕文本对应一定时间范围内的弹幕上下文文本的分类信息。优选的,所述的上下文语境审核包括上下文视频语境审核和上下文文本语境审核,所述上下文视频语境审核基于深度学习方法或传统方法进行,所述上下文文本语境审核基于语义分类方法进行。优选的,所述的敏感词特征库的构建方法包括:建立原始敏感词库;对所述原始敏感词库的每个敏感词进行变形映射处理,获得各种变形映射结果;将所述各种变形映射结果与所述原始敏感词库进行组合构建出敏感词特征库。优选的,所述的变形映射处理包括音字混合变形、谐音变形、拼音缩写变形、前后鼻音及平翘舌音变形、反读变形、填字变形、缺字变形、拆解字变形、形近字变形、同义词变形。优选的,所述的语义分类模型的训练方法包括深度学习方法和传统训练方法,所述深度学习方法包括:TextCNN、TextRNN、BERT、XLNet、RoBERTa、ALBERT等,所述传统训练方法包括逻辑回归、支持向量机。优选地,使用深度学习方法ALBERT。优选的,所述的语义分类标注包括:“语义正常”、“语义违规”、“语义模糊”。本专利技术还公开一种结合上下文语境的视频弹幕文本审核系统,所述系统包括敏感词扩展审核模块、语义审核模块、上下文语境审核模块,其中,敏感词扩展审核模块:用于对目标审核文本进行分词处理,将所述目标审核文本与预设的敏感词特征库进行比对匹配,获得匹配结果,根据敏感词匹配结果进行输出判断处理,匹配成功则审核结束,匹配失败则需继续审核;语义审核模块:将需要进一步审核的目标审核文本输入训练好的语义分类模型,获得判定结果,根据所述判定结果,为视频弹幕文本增加语义分类标注,根据所述语义分类标注,对输出判断处理,确定输出方式及需进一步审核的目标审核文本;上下文语境审核模块:获取所述目标审核文本的上下文语境信息,基于上下文语境审核对所述的上下文语境信息进行检测分析,并进行综合判断,获得审核结果。优选的,所述系统还包括审核结果输出模块,所述审核结果输出模块对来自敏感词扩展审核模块、语义审核模块、上下文语境审核模块的输出进行最终的审核输出、展示。优选的,所述审核结果输出模块对来自敏感词扩展审核模块的输出,输出展示的数据包括:检索词在输入文本中出现的位置、匹配到的敏感词原形、敏感词在输入文本中的实际变形映射信息。本专利技术还公开一种电子设备,其特征在于,所述系统包括处理器以及存储器,所述存储器用于存储可执行程序;所述处理器用于执行所述可执行程序以实现所述的方法。本专利技术公开的方法和系统中所述的模块,在实际应用中,即可以在一台服务器上部署多个模块,也可以每一模块独立部署在不同的服务器上,特别的,根据需要,为了提供更强大的计算处理能力,也可以根据需要将模块部署到集群服务器上。利用本专利技术公开的方法和系统,采用多级审核模式,审核手段多样化,且结合视频和文本双通道上下文语境信息的多重审核,从而弥补了现有技术不能应对弹幕文本本身信息量不足的缺点,克服了通常方法对视频弹幕文本审核的准确率低的缺陷,确保了视频弹幕文本的审核结果更加准确可靠,故具有明显的技术优势和有益效果为了对本专利技术有更清楚全面的了解,下面结合附图,对本专利技术的具体实施方式进行详细描述。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了一种实施例中结合上下文语境的视频弹幕文本审核方法的流程示意图。图2示出了一种实施例中敏感词特征库的构建方法的流程示意图。图3示出了一种实施例中结合上下文语境的视频弹幕文本审核系统的结构示意图。图4示出了一种实施例的上下文语境审核模块的结构示意图。图5示出了一种实施例的上下文语境审核模块流程示意图。图6示出了一种审核结果输出整体流程示意图。具体实施方式请参阅图1,图1示出了一种结合上下文语境的视频弹幕文本审核方法的流程示意图,具体包括步骤S11~S14:步骤S11,获取待审核的视频弹幕文本作为目标审核文本。获得待审核的视频弹幕文本text,将text作为目标审核文本。步骤S12,敏感词扩展审核步骤。在该实施例中,敏感词扩展审核步骤包括以下内容:采用分词方法对所述的目标审核文本进行分词处理,获得所述目标审核文本的文本片段列表,将所述文本片段列表与预设的敏感词特征库进行比对匹配,获得匹配结果,匹配成功则所述敏感词扩展审核步骤结束,匹配失败则需继续下一步审核。首先对目标审核文本进行分词处理,text为目标审核文本,对text进行分词处理操作后,输出按词语出现先后顺序排列的分词结果列表listseg:listseg=[seg1,seg2,…,segM]其中,M表示分词结果列表的元素个数。将listseg作为目标审核文本。在该实施例中,还需要本文档来自技高网...

【技术保护点】
1.一种结合上下文语境的视频弹幕文本审核方法,其特征在于包括以下步骤:/n获取待审核的视频弹幕文本作为目标审核文本;/n敏感词扩展审核步骤:采用分词方法对所述的目标审核文本进行分词处理,获得所述目标审核文本的文本片段列表,将所述文本片段列表与预设的敏感词特征库进行比对匹配,获得匹配结果,匹配成功则所述敏感词扩展审核步骤结束,匹配失败则需继续下一步审核;/n语义审核步骤:将需要进一步审核的目标审核文本输入训练好的语义分类模型,获得判定结果,根据所述判定结果,为视频弹幕文本增加语义分类标注,根据所述语义分类标注,确定需进一步审核的目标审核文本;/n上下文语境审核步骤:获取所述目标审核文本的上下文语境信息,基于上下文语境审核对所述的上下文语境信息进行检测分析,获得审核结果。/n

【技术特征摘要】
1.一种结合上下文语境的视频弹幕文本审核方法,其特征在于包括以下步骤:
获取待审核的视频弹幕文本作为目标审核文本;
敏感词扩展审核步骤:采用分词方法对所述的目标审核文本进行分词处理,获得所述目标审核文本的文本片段列表,将所述文本片段列表与预设的敏感词特征库进行比对匹配,获得匹配结果,匹配成功则所述敏感词扩展审核步骤结束,匹配失败则需继续下一步审核;
语义审核步骤:将需要进一步审核的目标审核文本输入训练好的语义分类模型,获得判定结果,根据所述判定结果,为视频弹幕文本增加语义分类标注,根据所述语义分类标注,确定需进一步审核的目标审核文本;
上下文语境审核步骤:获取所述目标审核文本的上下文语境信息,基于上下文语境审核对所述的上下文语境信息进行检测分析,获得审核结果。


2.如权利要求1所述的方法,其特征是,所述的上下文语境信息包括:所述视频弹幕文本对应的视频帧的目标结构化信息、场景分类信息,所述视频弹幕文本对应一定时间范围内视频的事件结构化信息,所述视频弹幕文本对应一定时间范围内的弹幕上下文文本的分类信息。


3.如权利要求1或2所述的方法,其特征是,所述的上下文语境审核包括上下文视频语境审核和上下文文本语境审核,所述上下文视频语境审核基于深度学习方法或传统方法进行,所述上下文文本语境审核基于语义分类方法进行。


4.如权利要求1所述的方法,其特征是:所述的敏感词特征库的构建方法包括:
建立原始敏感词库;
对所述原始敏感词库的每个敏感词进行变形映射处理,获得各种变形映射结果;
将所述各种变形映射结果与所述原始敏感词库进行组合构建出敏感词特征库。


5.如权利要求4所述的方法,其特征是:所述的变形映射处理包括音字混合变形、谐音变形、拼音缩写变形、前后鼻音及平翘舌音变形、反读...

【专利技术属性】
技术研发人员:王晓平
申请(专利权)人:上海极链网络科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1