当前位置: 首页 > 专利查询>刘进专利>正文

一种互联网流媒体大数据弹幕处理系统及处理方法技术方案

技术编号:22333662 阅读:29 留言:0更新日期:2019-10-19 12:57
本发明专利技术一种互联网流媒体大数据弹幕处理系统包括图像识别模块、非法词汇数据库、词汇过滤模块、筛选模块、弹幕获取模块、控制模块,其用于比较第一弹幕在第一单位时间内的数量与所述第一单位时间内的预设数量,若大于,则将与所述第三文字数据相关联的第一弹幕转化为第二弹幕,并将所述第二弹幕与流媒体合成发送至用户终端。本发明专利技术通过上述方式筛选与流媒体的每一帧图像内的第一文字数据相关的弹幕作为最终输出至用户终端的第二弹幕,从而保证了在庞大数据量的弹幕同时输入时,可尽可能地筛选与本视频内容相关联的弹幕数据与流媒体合成发送至用户终端,从而过滤掉诸如辱骂、广告、闲谈等与流媒体内容无关的弹幕数据。

【技术实现步骤摘要】
一种互联网流媒体大数据弹幕处理系统及处理方法
本专利技术涉及一种大数据弹幕技术,特别是涉及一种用于处理流媒体大数据弹幕的系统。
技术介绍
目前,弹幕成了为很多观众观看视频、直播的重要元素。越来越多的人观看弹幕、发送弹幕成为了目前的潮流。但是随着弹幕数量的增加,弹幕也出现了很多诸如黄色、暴力、广告、宗教、政治等违法信息。即便不是违法信息,弹幕之间互相带节奏,发送的与流媒体内容无关的弹幕也会影响用户观看。因此,目前亟需一种治理流媒体大数据弹幕的处理系统。
技术实现思路
本专利技术要解决的技术问题是提供一种治理流媒体大数据弹幕的处理系统。本专利技术一种互联网流媒体大数据弹幕处理系统,包括图像识别模块,其用于识别流媒体内的每一帧出现的第一文字数据;非法词汇数据库,其用于存储非法词汇;词汇过滤模块,用于将所述第一文字数据与所述非法词汇数据库中的非法词汇进行对比,若不匹配,则将所述第一文字数据转化为第二文字数据;筛选模块,其用于将连续出现超过预设帧数的第二文字数据转化为第三文字数据;弹幕获取模块,其用于输入第一弹幕;控制模块,其用于比较第一弹幕在第一单位时间内的数量与所述第一单位时间内的预设数量,若大于,则将与所述第三文字数据相关联的第一弹幕转化为第二弹幕,并将所述第二弹幕与流媒体合成发送至用户终端。本专利技术一种互联网流媒体大数据弹幕处理系统,其中所述控制模块将与所述第三文字数据相关联的第一弹幕转化为第二弹幕的方式为:根据所述第三文字数据的字符和字符数量n而比较每个第一弹幕中与第一弹幕数据相同的字符的字符数量a;按照字符数量a由大至小的顺序和在相同字数数量a时将靠近将输入时间与所述第三文字数据连续出现的第一帧的时间更近的一部分第一弹幕转化为第二弹幕,其中第二弹幕数量等于所述第一单位时间内的预设数量。本专利技术一种互联网流媒体大数据弹幕处理系统,其中所述图像识别模块识别流媒体内的每一帧出现的第一文字数据的方式为:将第二单位时间内超过第一预设阈值的识别出第一文字数据所在的流媒体内的每一帧的位置定义为字幕区域,每一帧的其他位置为非字幕区域;判定将所述第二时间所述第一文字数据是否超过第二预设阈值,若否,则输出第一文字数据,若是,则将根据每个第一文字数据与所述非法词汇数据库中的非法词汇相同的字符数b、位置系数c按如下公式输出和谐分数d:其中,当所述第一文字数据在所述字幕区域时,c=0.9,当所述第一文字数据在所述非字幕区域时,c=0.1.1;按照由大至小的顺序输出第二预设阈值个第一文字数据。本专利技术一种互联网流媒体大数据弹幕处理系统,其中所述第二预设阈值为(1,+∞)。本专利技术一种互联网流媒体大数据弹幕处理系统,其中所述第二预设阈值为200个。本专利技术一种互联网流媒体大数据弹幕处理系统,其中所述第二单位时间为(60s,+∞)。本专利技术一种互联网流媒体大数据弹幕处理系统,其中所述第二单位时间为300s。本专利技术一种互联网流媒体大数据弹幕处理系统的处理方法,包括如下步骤:步骤1、存储非法词汇,步骤2、识别流媒体内的每一帧出现的第一文字数据;步骤3、将所述第一文字数据与所述非法词汇数据库中的非法词汇进行对比,若不匹配,则将所述第一文字数据转化为第二文字数据;步骤4、将连续出现超过预设帧数的第二文字数据转化为第三文字数据;步骤5、输入第一弹幕;步骤6、比较第一弹幕在第一单位时间内的数量与所述第一单位时间内的预设数量,若大于,则将与所述第三文字数据相关联的第一弹幕转化为第二弹幕,并将所述第二弹幕与流媒体合成发送至用户终端。本专利技术一种互联网流媒体大数据弹幕处理系统与现有技术不同之处在于本专利技术一种互联网流媒体大数据弹幕处理系统通过上述方式筛选与流媒体的每一帧图像内的第一文字数据相关的弹幕作为最终输出至用户终端的第二弹幕,从而保证了在庞大数据量的弹幕同时输入时,可尽可能地筛选与本视频内容相关联的弹幕数据与流媒体合成发送至用户终端,从而过滤掉诸如辱骂、广告、闲谈等与流媒体内容无关的弹幕数据。下面结合附图对本专利技术的一种互联网流媒体大数据弹幕处理系统作进一步说明。附图说明图1是一种互联网流媒体大数据弹幕处理系统的方法流程图。具体实施方式如图1所示,本专利技术一种互联网流媒体大数据弹幕处理系统包括图像识别模块,其用于识别流媒体内的每一帧出现的第一文字数据;非法词汇数据库,其用于存储非法词汇;词汇过滤模块,用于将所述第一文字数据与所述非法词汇数据库中的非法词汇进行对比,若不匹配,则将所述第一文字数据转化为第二文字数据;筛选模块,其用于将连续出现超过预设帧数的第二文字数据转化为第三文字数据;弹幕获取模块,其用于输入第一弹幕;控制模块,其用于比较第一弹幕在第一单位时间内的数量与所述第一单位时间内的预设数量,若大于,则将与所述第三文字数据相关联的第一弹幕转化为第二弹幕,并将所述第二弹幕与流媒体合成发送至用户终端。本专利技术通过上述方式筛选与流媒体的每一帧图像内的第一文字数据相关的弹幕作为最终输出至用户终端的第二弹幕,从而保证了在庞大数据量的弹幕同时输入时,可尽可能地筛选与本视频内容相关联的弹幕数据与流媒体合成发送至用户终端,从而过滤掉诸如辱骂、广告、闲谈等与流媒体内容无关的弹幕数据。其中,所述流媒体可为点播视频或直播视频。其中,所述预设帧数可为(1,600)。其中,流媒体的帧数通常为30帧每秒时,则预设帧数优选为150帧;其中,流媒体的帧数通常为60帧每秒时,则预设帧数优选为300帧。其中,非法词汇可为电话号码、地址、辱骂词汇、广告词汇、政治词汇、火星文,其中火星文可指代乱码文字或非法字体,因为乱码文字可能是识别图片中,由于错误识别而生成的文字,而非法字体可能隐含广告、色情、政治、暴力等。其中,第一弹幕在第一单位时间内的数量与所述第一单位时间内的预设数量均可用速度单位表示,例如,每秒5个弹幕,其中第一单位时间可为1秒,预设数量可为(1,100),优选为10个弹幕,因为弹幕过多会出现弹幕互相堆叠而使用户无法看清弹幕内容,失去了弹幕的意义。使用时,例如流媒体直播视频的帧数为30帧每秒,预设帧数优选为150帧,也就是说,识别的第二文字数据的预设帧数体现出的时间为5秒,那么,先通过图像识别模块在每一帧中识别出第一文字数据;词汇过滤模块与非法词汇不匹配的第一文字数据转化为第二文字数据;筛选模块将连续出现5秒之上的第二文字数据转化为第三文字数据;获取用户输入的第一弹幕;将第一弹幕的速度与第一单位时间内的预设数量对比,若大于,则只输出与第三文字数据相关联的第一弹幕,并将其转化为第二弹幕输出至用户终端。优选地,所述控制模块将与所述第三文字数据相关联的第一弹幕转化为第二弹幕的方式为:根据所述第三文字数据的字符和字符数量n而比较每个第一弹幕中与第一弹幕数据相同的字符的字符数量a;按照字符数量a由大至小的顺序和在相同字数数量a时将靠近将输入时间与所述第三文字数据连续出现的第一帧的时间更近的一部分第一弹幕转化为第二弹幕,其中第二弹幕数量等于所述第一单位时间内的预设数量。本专利技术通过上述方式可在第一单位时间内的预设数量允许的情况下,将第一弹幕从而筛选出与第三文字数据的字符数量更加相近、输入时间更早、更加符合流媒体内容的第一弹幕转化为第二弹幕。使用时,可具体地说:若a=n的第一弹幕的第一单位时间内的数量在第一本文档来自技高网...

【技术保护点】
1.一种互联网流媒体大数据弹幕处理系统,其特征在于:包括图像识别模块,其用于识别流媒体内的每一帧出现的第一文字数据;非法词汇数据库,其用于存储非法词汇;词汇过滤模块,用于将所述第一文字数据与所述非法词汇数据库中的非法词汇进行对比,若不匹配,则将所述第一文字数据转化为第二文字数据;筛选模块,其用于将连续出现超过预设帧数的第二文字数据转化为第三文字数据;弹幕获取模块,其用于输入第一弹幕;控制模块,其用于比较第一弹幕在第一单位时间内的数量与所述第一单位时间内的预设数量,若大于,则将与所述第三文字数据相关联的第一弹幕转化为第二弹幕,并将所述第二弹幕与流媒体合成发送至用户终端。

【技术特征摘要】
1.一种互联网流媒体大数据弹幕处理系统,其特征在于:包括图像识别模块,其用于识别流媒体内的每一帧出现的第一文字数据;非法词汇数据库,其用于存储非法词汇;词汇过滤模块,用于将所述第一文字数据与所述非法词汇数据库中的非法词汇进行对比,若不匹配,则将所述第一文字数据转化为第二文字数据;筛选模块,其用于将连续出现超过预设帧数的第二文字数据转化为第三文字数据;弹幕获取模块,其用于输入第一弹幕;控制模块,其用于比较第一弹幕在第一单位时间内的数量与所述第一单位时间内的预设数量,若大于,则将与所述第三文字数据相关联的第一弹幕转化为第二弹幕,并将所述第二弹幕与流媒体合成发送至用户终端。2.根据权利要求1所述的一种互联网流媒体大数据弹幕处理系统,其特征在于:所述控制模块将与所述第三文字数据相关联的第一弹幕转化为第二弹幕的方式为:根据所述第三文字数据的字符和字符数量n而比较每个第一弹幕中与第一弹幕数据相同的字符的字符数量a;按照字符数量a由大至小的顺序和在相同字数数量a时将靠近将输入时间与所述第三文字数据连续出现的第一帧的时间更近的一部分第一弹幕转化为第二弹幕,其中第二弹幕数量等于所述第一单位时间内的预设数量。3.根据权利要求2所述的一种互联网流媒体大数据弹幕处理系统,其特征在于:所述图像识别模块识别流媒体内的每一帧出现的第一文字数据的方式为:将第二单位时间内超过第一预设阈值的识别出第一文字数据所在的流媒体内的每一帧的位置定义为字幕区域,每一帧的其他位置为非字幕区域;判定将所述第二时间所述第...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:刘进
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1