一种页面弹幕的过滤方法及系统技术方案

技术编号:21168048 阅读:23 留言:0更新日期:2019-05-22 09:53
本发明专利技术公开了一种页面弹幕的过滤方法及系统,其中,所述方法包括以下步骤:S1、接收输入的弹幕信息后,对弹幕信息进行初步处理,并结合预设的敏感词库判断弹幕信息中是否存有敏感词,若是,对弹幕信息进行第一格式处理后输出弹幕信息;反之,执行步骤S2;S2、将第一弹幕信息输入审核界面后,对第一弹幕信息进行提炼,并判断第一弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第二格式处理后输出第三弹幕信息,并将提炼到的敏感词补入敏感词库;反之,输出第一弹幕信息。本发明专利技术根据敏感词库对弹幕信息进行初步过滤后,再将弹幕信息输入审核界面进行提炼并做进一步提炼,从而提高了过滤质量,可广泛应用于网络数据过滤技术领域。

A Filtering Method and System for Page Ballistic Curtain

The present invention discloses a filtering method and system for page bullet curtain, which includes the following steps: S1, after receiving the input bullet curtain information, preliminary processing of the bullet curtain information, judging whether there are sensitive words in the bullet curtain information according to the preset sensitive thesaurus, and if so, outputting the bullet curtain information after the first format processing; conversely, executing E 2. S2. After input the first barrage information into the auditing interface, extract the first barrage information and judge whether there are sensitive words in the first barrage information. If so, after processing the first barrage information in the second format, output the third barrage information, and add the extracted sensitive words into the sensitive thesaurus; conversely, output the first barrage information. According to the sensitive lexicon, the ballistic screen information is preliminarily filtered, then the ballistic screen information is input into the auditing interface for refining and further refining, thereby improving the filtering quality, and can be widely used in the field of network data filtering technology.

【技术实现步骤摘要】
一种页面弹幕的过滤方法及系统
本专利技术涉及网络数据过滤
,尤其涉及一种页面弹幕的过滤方法及系统。
技术介绍
随着社会与科技的发展,越来越多用户通过智能终端观看视频,比如观看电影、综艺节目和直播平台,这些网络平台为了能够与用户更好地互动,普遍设置了弹幕功能,用户可通过智能终端输入弹幕。这些弹幕会出现在视频的前面,被千千万万的用户观看到。因此,有些不法分子或者图谋不轨的人想借助弹幕传播一些不良信息,这些信息一当被传输就会被成千上万的人接收到,会造成严重的后果。因此,考虑到法律法规和视频播放的安全,需要对弹幕信息进行审核,从而选出弹幕中的敏感词,并加以处理。然而,现有的过滤方案一般是采用敏感词库来匹配过滤,然而这种方案过滤的效果不够全面,比如,在敏感词库中记录有“小明”,而如果弹幕信息中出现“xiao明”,则过滤不掉。
技术实现思路
为了解决上述技术问题,本专利技术的目的是提供一种效果更好的页面弹幕的过滤方法。本专利技术的另一目的是提供一种效果更好的页面弹幕的过滤系统。本专利技术方法所采用的技术方案是:一种页面弹幕的过滤方法,包括以下步骤:S1、接收输入的第一弹幕信息后,根据预设方式对第一弹幕信息进行初步处理,并结合预设的敏感词库判断第一弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第一格式处理后输出第二弹幕信息;反之,继续执行步骤S2;S2、将经过初步处理的第一弹幕信息输入审核界面后,对第一弹幕信息做进一步的提炼,并判断第一弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第二格式处理后输出第三弹幕信息,并将提炼到的敏感词补入敏感词库;反之,输出第一弹幕信息。进一步,所述步骤S2中所述的对弹幕信息做进一步的提炼的步骤,具体为:采用人工提炼方式对第一弹幕信息进行提炼。进一步,所述步骤S1,具体包括以下步骤:S11、接收输入的第一弹幕信息后,根据预设方式对第一弹幕信息进行拆分,从而获得多个词语;S12、依次将各词语与敏感词库中的敏感词进行匹配,并判断是否匹配成功,若是,判定第一弹幕信息存有敏感词,并对第一弹幕信息进行第一格式处理后输出第二弹幕信息;反之,根据预设的常规词库对第一弹幕信息进行第三格式处理后,继续执行步骤S2。进一步,所述步骤S2,具体包括以下步骤:S21、按照预设的合并条件对经过初步处理的第一弹幕信息进行合并,并将合并后的第一弹幕信息输入审核界面;S22、采用人工提炼方式对第一弹幕信息进行提炼;S23、判断弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第二格式处理后输出第三弹幕信息,并将提炼到的敏感词补入敏感词库;反之,输出第一弹幕信息。进一步,所述步骤S21,具体为:获取预设间隔时间内的第一弹幕信息,判断是否存有相同的第一弹幕信息,并在判断存有时,将相同的第一弹幕信息合并后,输入审核界面。本专利技术系统所采用的技术方案是:一种页面弹幕的过滤系统,包括:初步过滤模块,用于接收输入的第一弹幕信息后,根据预设方式对第一弹幕信息进行初步处理,并结合预设的敏感词库判断第一弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第一格式处理后输出第二弹幕信息;反之,进入提炼过滤模块;提炼过滤模块,用于将经过初步处理的第一弹幕信息输入审核界面后,对第一弹幕信息做进一步的提炼,并判断第一弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第二格式处理后输出第三弹幕信息,并将提炼到的敏感词补入敏感词库;反之,输出第一弹幕信息。进一步,所述初步过滤模块,包括拆分单元和匹配单元;所述拆分单元,用于接收输入的第一弹幕信息后,根据预设方式对第一弹幕信息进行拆分,从而获得多个词语;所述匹配单元,用于依次将各词语与敏感词库中的敏感词进行匹配,并判断是否匹配成功,若是,判定第一弹幕信息存有敏感词,并对第一弹幕信息进行第一格式处理后输出第二弹幕信息;反之,根据预设的常规词库对第一弹幕信息进行第三格式处理后,进入提炼过滤模块。进一步,所述提炼过滤模块包括合并单元、提炼单元和输出单元;所述合并单元,用于按照预设的合并条件对经过初步处理的第一弹幕信息进行合并,并将合并后的第一弹幕信息输入审核界面;所述提炼单元,用于采用人工提炼方式对第一弹幕信息进行提炼;所述输出单元,用于判断弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第二格式处理后输出第三弹幕信息,并将提炼到的敏感词补入敏感词库;反之,输出第一弹幕信息。进一步,所述合并单元具体用于获取预设间隔时间内的第一弹幕信息,判断是否存有相同的第一弹幕信息,并在判断存有时,将相同的第一弹幕信息合并后,输入审核界面。本专利技术系统所采用的另一技术方案是:一种页面弹幕的过滤系统,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述的一种页面弹幕的过滤方法。本专利技术的有益效果是:本专利技术根据敏感词库对弹幕信息进行初步过滤后,再将弹幕信息输入审核界面进行提炼并做进一步过滤,能够更加快速的进行过滤,也使过滤效果更加全面,提高了过滤质量,满足了全面过滤的高要求。附图说明图1是本专利技术一种页面弹幕的过滤方法的步骤流程图;图2是本专利技术一种页面弹幕的过滤系统的结构框图。具体实施方式实施例一如图1所示,本实施例提供一种页面弹幕的过滤方法,包括以下步骤:A1、接收输入的第一弹幕信息后,根据预设方式对第一弹幕信息进行初步处理,并结合预设的敏感词库判断第一弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第一格式处理后输出第二弹幕信息;反之,继续执行步骤A2。A2、将经过初步处理的第一弹幕信息输入审核界面后,对第一弹幕信息做进一步的提炼,并判断第一弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第二格式处理后输出第三弹幕信息,并将提炼到的敏感词补入敏感词库;反之,输出第一弹幕信息。上述方法的工作原理为:用户通过智能终端输入弹幕后,对弹幕进行初步处理,比如识别弹幕中的文字、符号和表情图像等信息,并过滤掉符号或表情图像等。获取到弹幕信息中的语句后,结合预设的敏感词库对判断弹幕信息中是否存有敏感词,所述敏感词库是存储有敏感词汇的数据库,当判断到弹幕语句中存有敏感词库记录的敏感词,判定该弹幕信息违规,直接对该弹幕信息进行第一格式处理,再输出弹幕信息,所述第一格式处理可以为:将弹幕信息的文字删掉,也可以为将文字采用预设好的表情图案代替。上述基于敏感词库过滤只是初步过滤,将经过初步过滤的弹幕信息输入审核界面,对弹幕信息做进一步的提炼,所述提炼可以为机器人提炼,也可以为人工提炼,当选择机器人提炼时,可以对敏感词的相义词或相近词进行提炼,比如“18”的相义词为“十八”,或者“小明”的相义词为“xiaoming”,“肥”的相近词为“胖”,通过机器人提炼后,判定为敏感词的,对弹幕信息进行第二格式处理后输出弹幕信息,并将提炼到的敏感词补入敏感词库。由于初步过滤的速度比较快,因此通过初步过滤,可以过滤大部分的敏感词,加快了过滤的速度,而通过进一步敏感词的提炼,可使敏感词的过滤更加充分,过滤质量更好,从而满足高质量的过滤要求。具体的,其中步骤A1具体包括A11~A12:A11、接收输入的第一弹幕信息后,根据预设方式对第一弹幕信息进行拆分,从而获得多个词语。A12、依次本文档来自技高网...

【技术保护点】
1.一种页面弹幕的过滤方法,其特征在于,包括以下步骤:S1、接收输入的第一弹幕信息后,根据预设方式对第一弹幕信息进行初步处理,并结合预设的敏感词库判断第一弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第一格式处理后输出第二弹幕信息;反之,继续执行步骤S2;S2、将经过初步处理的第一弹幕信息输入审核界面后,对第一弹幕信息做进一步的提炼,并判断第一弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第二格式处理后输出第三弹幕信息,并将提炼到的敏感词补入敏感词库;反之,输出第一弹幕信息。

【技术特征摘要】
1.一种页面弹幕的过滤方法,其特征在于,包括以下步骤:S1、接收输入的第一弹幕信息后,根据预设方式对第一弹幕信息进行初步处理,并结合预设的敏感词库判断第一弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第一格式处理后输出第二弹幕信息;反之,继续执行步骤S2;S2、将经过初步处理的第一弹幕信息输入审核界面后,对第一弹幕信息做进一步的提炼,并判断第一弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第二格式处理后输出第三弹幕信息,并将提炼到的敏感词补入敏感词库;反之,输出第一弹幕信息。2.根据权利要求1所述的一种页面弹幕的过滤方法,其特征在于,所述步骤S2中所述对第一弹幕信息做进一步的提炼的步骤,具体为:采用人工提炼方式对第一弹幕信息进行提炼。3.根据权利要求2所述的一种页面弹幕的过滤方法,其特征在于,所述步骤S1,具体包括以下步骤:S11、接收输入的第一弹幕信息后,根据预设方式对第一弹幕信息进行拆分,从而获得多个词语;S12、依次将各词语与敏感词库中的敏感词进行匹配,并判断是否匹配成功,若是,判定第一弹幕信息存有敏感词,并对第一弹幕信息进行第一格式处理后输出第二弹幕信息;反之,根据预设的常规词库对第一弹幕信息进行第三格式处理后,继续执行步骤S2。4.根据权利要求3所述的一种页面弹幕的过滤方法,其特征在于,所述步骤S2,具体包括以下步骤:S21、按照预设的合并条件对经过初步处理的第一弹幕信息进行合并,并将合并后的第一弹幕信息输入审核界面;S22、采用人工提炼方式对第一弹幕信息进行提炼;S23、判断弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第二格式处理后输出第三弹幕信息,并将提炼到的敏感词补入敏感词库;反之,输出第一弹幕信息。5.根据权利要求4所述的一种页面弹幕的过滤方法,其特征在于,所述步骤S21,具体为:获取预设间隔时间内的第一弹幕信息,判断是否存有相同的第一弹幕信息,并在判断存有时,将相同的第一弹幕信息合并后,输入审核界面。6.一种页面弹幕的过滤系统,其特征在于,包括:初步过滤模块,用于接收输入的...

【专利技术属性】
技术研发人员:杨井
申请(专利权)人:无锡天脉聚源传媒科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1