一种数据过滤方法及装置制造方法及图纸

技术编号:20916745 阅读:21 留言:0更新日期:2019-04-20 09:44
本发明专利技术提供了一种数据过滤方法及装置,所述方法包括:获取待检测数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词;若所述文字标题信息包括所述预设关键词库中的敏感关键词,则获取所述敏感关键词的数量;获取所述待检测数据的网络点击量;基于所述待检测数据的网络点击量以及文字标题信息中包括的敏感关键词的数量过滤所述待检测数据。基于本发明专利技术提供的方案不仅可以快速过滤掉暴力、低俗等垃圾数据,还可以及时判断出潜在的隐藏较深需要过滤的数据,在提升过滤效率的同时改善网络环境。

A Data Filtering Method and Device

The invention provides a data filtering method and device, which includes: acquiring the text heading information of the data to be detected, judging whether the text heading information includes sensitive keywords in the preset keyword library, acquiring the number of sensitive keywords if the text heading information includes sensitive keywords in the preset keyword library, and acquiring the number of sensitive keywords to be detected. The network clicks of data; filtering the data to be detected based on the network clicks of the data to be detected and the number of sensitive keywords included in the text title information. The scheme based on the present invention can not only filter out the garbage data such as violence and vulgarity quickly, but also judge the latent data which need to be filtered deeply in time, so as to improve the filtering efficiency and the network environment at the same time.

【技术实现步骤摘要】
一种数据过滤方法及装置
本专利技术涉及数据处理
,特别是涉及一种数据过滤方法及装置。
技术介绍
随着网络技术的不断发展,越来越多的人通过网络发布、传递并获取各种信息数据。但是,由于网络的覆盖面很广,网络上传播的数据种类以及数据形式也很多,如文字、图像、声音、视频等等。在网络上流传的数据中,除了各种新闻数据、娱乐数据、百科数据等,低俗、暴力等其他不良数据的存量也较高,因此,对于这些数据的打压及过滤极为重要。
技术实现思路
本专利技术提供了一种数据过滤方法及装置以克服上述问题或者至少部分地解决上述问题。根据本专利技术的一个方面,提供了一种数据过滤方法,包括:获取待检测数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词;若所述文字标题信息包括所述预设关键词库中的敏感关键词,则获取所述敏感关键词的数量;获取所述待检测数据的网络点击量;基于所述待检测数据的网络点击量以及文字标题信息中包括的敏感关键词的数量过滤所述待检测数据。可选地,所述基于所述待检测数据的网络点击量以及文字标题信息中包括的敏感关键词的数量过滤所述待检测数据,包括:若所述待检测数据的网络点击量超过第一预设点击量,且所述文字标题信息中包括的敏感关键词的数量超过第一预设数值,则过滤所述待检测数据;和/或若所述待检测数据的网络点击量低于第二预设点击量,且所述文字标题信息中包括的敏感关键词的数量超过第二预设数值,则过滤所述待检测数据。可选地,所述获取待检测数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词,包括:获取预设数据库中各数据的网络点击量,并基于所述网络点击量进行排序,根据网络点击量在预设范围内的数据生成热门数据库;选取所述热门数据库中的任一数据作为待检测数据,获取所述待检测数据的文字标题信息;判断所述文字标题信息是否包括预设关键词库中的敏感关键词。可选地,所述判断所述文字标题信息是否包括预设关键词库中的敏感关键词之前,还包括:获取经过人工审核的敏感关键词和/或已过滤数据的文章标题信息提取的敏感关键词;基于所述敏感关键词构建预设关键词库。可选地,所述判断所述文字标题信息是否包括预设关键词库中的敏感关键词,包括:对所述文字标题信息进行分词,获取所述文字标题信息包括的至少一个词语;将所述词语与所述预设关键词库中的敏感关键词进行匹配;若所述词语与所述预设关键词库中的敏感关键词匹配成功,则判断所述文字标题信息包括预设关键词库中的敏感关键词;若所述词语与所述预设关键词库中的敏感关键词匹配不成功,则判断所述文字标题信息没有包括预设关键词库中的敏感关键词。可选地,所述待检测数据包括互联网视频数据;所述获取待检测数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词,包括:获取已保存在视频服务器的视频数据和/或直播主直播的视频数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词。可选地,所述获取待检测数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词,还包括:获取用户当前观看的视频数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词。根据本专利技术的另一个方面,还提供了一种数据过滤装置,判断模块,配置为获取待检测数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词;第一获取模块,配置为若所述文字标题信息包括所述预设关键词库中的敏感关键词,则获取所述敏感关键词的数量;第二获取模块,配置为获取所述待检测数据的网络点击量;过滤模块,配置为基于所述待检测数据的网络点击量以及文字标题信息中包括的敏感关键词的数量过滤所述待检测数据。可选地,所述过滤模块包括:第一过滤单元,配置为当所述待检测数据的网络点击量超过第一预设点击量,且所述文字标题信息中包括的敏感关键词的数量超过第一预设数值时,过滤所述待检测数据;和/或第二过滤单元,配置为当所述待检测数据的网络点击量低于第二预设点击量,且所述文字标题信息中包括的敏感关键词的数量超过第二预设数值时,过滤所述待检测数据。可选地,所述判断模块还配置为:获取预设数据库中各数据的网络点击量,并基于所述网络点击量进行排序,根据网络点击量在预设范围内的数据生成热门数据库;选取所述热门数据库中的任一数据作为待检测数据,获取所述待检测数据的文字标题信息;判断所述文字标题信息是否包括预设关键词库中的敏感关键词。可选地,所述判断模块还配置为:在判断所述文字标题信息是否包括预设关键词库中的敏感关键词之前,获取经过人工审核的敏感关键词和/或已过滤数据的文章标题信息提取的敏感关键词;基于所述敏感关键词构建预设关键词库。可选地,所述判断模块还配置为:对所述文字标题信息进行分词,获取所述文字标题信息包括的至少一个词语;将所述词语与所述预设关键词库中的敏感关键词进行匹配;当所述词语与所述预设关键词库中的敏感关键词匹配成功时,判断所述文字标题信息包括预设关键词库中的敏感关键词;当所述词语与所述预设关键词库中的敏感关键词匹配不成功时,判断所述文字标题信息没有包括预设关键词库中的敏感关键词。可选地,所述待检测数据包括互联网视频数据;所述判断模块,还配置为获取已保存在视频服务器的视频数据和/或直播主直播的视频数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词。可选地,所述判断模块,还配置为获取用户当前观看的视频数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词。根据本专利技术的另一方面,还提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序代码,当所述计算机程序代码在计算设备上运行时,导致所述计算设备执行上述任一项所述的数据过滤方法。根据本专利技术的另一方面,还提供了一种计算设备,包括:处理器;存储有计算机程序代码的存储器;当所述计算机程序代码被所述处理器运行时,导致所述计算设备执行上述任一项所述的数据过滤方法。本专利技术提供了一种更加高效的数据过滤方法及装置,在本专利技术提供的数据过滤方法中,通过判断待检测数据的文字标题信息是否包括敏感关键词,并在判断出包括敏感关键词之后获取其数量,同时,还获取待检测数据的网络点击量,判断其传播热度,进而结合待检测数据的文字标题信息中的敏感关键词数量以及待检测数据的网络点击量对其进行过滤。基于本专利技术提供的数据过滤方法,通过采用敏感关键词和热度的结合的方式对待检测数据进行过滤检测,不仅可以直接过滤掉暴力、低俗等垃圾数据,还可以及时判断出潜在的隐藏较深需要过滤的数据,进而提升不良数据以及垃圾数据的过滤效率,改善网络环境。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。根据下文结合附图对本专利技术具体实施例的详细描述,本领域技术人员将会更加明了本专利技术的上述以及其他目的、优点和特征。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1是根据本发本文档来自技高网...

【技术保护点】
1.一种数据过滤方法,包括:获取待检测数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词;若所述文字标题信息包括所述预设关键词库中的敏感关键词,则获取所述敏感关键词的数量;获取所述待检测数据的网络点击量;基于所述待检测数据的网络点击量以及文字标题信息中包括的敏感关键词的数量过滤所述待检测数据。

【技术特征摘要】
1.一种数据过滤方法,包括:获取待检测数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词;若所述文字标题信息包括所述预设关键词库中的敏感关键词,则获取所述敏感关键词的数量;获取所述待检测数据的网络点击量;基于所述待检测数据的网络点击量以及文字标题信息中包括的敏感关键词的数量过滤所述待检测数据。2.根据权利要求1所述的方法,其中,所述基于所述待检测数据的网络点击量以及文字标题信息中包括的敏感关键词的数量过滤所述待检测数据,包括:若所述待检测数据的网络点击量超过第一预设点击量,且所述文字标题信息中包括的敏感关键词的数量超过第一预设数值,则过滤所述待检测数据;和/或若所述待检测数据的网络点击量低于第二预设点击量,且所述文字标题信息中包括的敏感关键词的数量超过第二预设数值,则过滤所述待检测数据。3.根据权利要求1所述的方法,其中,所述获取待检测数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词,包括:获取预设数据库中各数据的网络点击量,并基于所述网络点击量进行排序,根据网络点击量在预设范围内的数据生成热门数据库;选取所述热门数据库中的任一数据作为待检测数据,获取所述待检测数据的文字标题信息;判断所述文字标题信息是否包括预设关键词库中的敏感关键词。4.根据权利要求3所述的方法,其中,所述判断所述文字标题信息是否包括预设关键词库中的敏感关键词之前,还包括:获取经过人工审核的敏感关键词和/或已过滤数据的文章标题信息提取的敏感关键词;基于所述敏感关键词构建预设关键词库。5.根据权利要求3所述的方法,其中,所述判断所述文字标题信息是否包括预设关键词库中的敏感关键词,包括:对所述文字标题信息进行分词,获取所述文字标题信息包括的至少一个词语;将所述词语与所述...

【专利技术属性】
技术研发人员:罗玄黄君实陈强
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1