The invention provides a data filtering method and device, which includes: acquiring the text heading information of the data to be detected, judging whether the text heading information includes sensitive keywords in the preset keyword library, acquiring the number of sensitive keywords if the text heading information includes sensitive keywords in the preset keyword library, and acquiring the number of sensitive keywords to be detected. The network clicks of data; filtering the data to be detected based on the network clicks of the data to be detected and the number of sensitive keywords included in the text title information. The scheme based on the present invention can not only filter out the garbage data such as violence and vulgarity quickly, but also judge the latent data which need to be filtered deeply in time, so as to improve the filtering efficiency and the network environment at the same time.
【技术实现步骤摘要】
一种数据过滤方法及装置
本专利技术涉及数据处理
,特别是涉及一种数据过滤方法及装置。
技术介绍
随着网络技术的不断发展,越来越多的人通过网络发布、传递并获取各种信息数据。但是,由于网络的覆盖面很广,网络上传播的数据种类以及数据形式也很多,如文字、图像、声音、视频等等。在网络上流传的数据中,除了各种新闻数据、娱乐数据、百科数据等,低俗、暴力等其他不良数据的存量也较高,因此,对于这些数据的打压及过滤极为重要。
技术实现思路
本专利技术提供了一种数据过滤方法及装置以克服上述问题或者至少部分地解决上述问题。根据本专利技术的一个方面,提供了一种数据过滤方法,包括:获取待检测数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词;若所述文字标题信息包括所述预设关键词库中的敏感关键词,则获取所述敏感关键词的数量;获取所述待检测数据的网络点击量;基于所述待检测数据的网络点击量以及文字标题信息中包括的敏感关键词的数量过滤所述待检测数据。可选地,所述基于所述待检测数据的网络点击量以及文字标题信息中包括的敏感关键词的数量过滤所述待检测数据,包括:若所述待检测数据的网络点击量超过第一预设点击量,且所述文字标题信息中包括的敏感关键词的数量超过第一预设数值,则过滤所述待检测数据;和/或若所述待检测数据的网络点击量低于第二预设点击量,且所述文字标题信息中包括的敏感关键词的数量超过第二预设数值,则过滤所述待检测数据。可选地,所述获取待检测数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词,包括:获取预设数据库中各数据的网络点击量,并基于所述网 ...
【技术保护点】
1.一种数据过滤方法,包括:获取待检测数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词;若所述文字标题信息包括所述预设关键词库中的敏感关键词,则获取所述敏感关键词的数量;获取所述待检测数据的网络点击量;基于所述待检测数据的网络点击量以及文字标题信息中包括的敏感关键词的数量过滤所述待检测数据。
【技术特征摘要】
1.一种数据过滤方法,包括:获取待检测数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词;若所述文字标题信息包括所述预设关键词库中的敏感关键词,则获取所述敏感关键词的数量;获取所述待检测数据的网络点击量;基于所述待检测数据的网络点击量以及文字标题信息中包括的敏感关键词的数量过滤所述待检测数据。2.根据权利要求1所述的方法,其中,所述基于所述待检测数据的网络点击量以及文字标题信息中包括的敏感关键词的数量过滤所述待检测数据,包括:若所述待检测数据的网络点击量超过第一预设点击量,且所述文字标题信息中包括的敏感关键词的数量超过第一预设数值,则过滤所述待检测数据;和/或若所述待检测数据的网络点击量低于第二预设点击量,且所述文字标题信息中包括的敏感关键词的数量超过第二预设数值,则过滤所述待检测数据。3.根据权利要求1所述的方法,其中,所述获取待检测数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词,包括:获取预设数据库中各数据的网络点击量,并基于所述网络点击量进行排序,根据网络点击量在预设范围内的数据生成热门数据库;选取所述热门数据库中的任一数据作为待检测数据,获取所述待检测数据的文字标题信息;判断所述文字标题信息是否包括预设关键词库中的敏感关键词。4.根据权利要求3所述的方法,其中,所述判断所述文字标题信息是否包括预设关键词库中的敏感关键词之前,还包括:获取经过人工审核的敏感关键词和/或已过滤数据的文章标题信息提取的敏感关键词;基于所述敏感关键词构建预设关键词库。5.根据权利要求3所述的方法,其中,所述判断所述文字标题信息是否包括预设关键词库中的敏感关键词,包括:对所述文字标题信息进行分词,获取所述文字标题信息包括的至少一个词语;将所述词语与所述...
【专利技术属性】
技术研发人员:罗玄,黄君实,陈强,
申请(专利权)人:北京奇虎科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。