敏感词的自动发现方法及其装置和应用制造方法及图纸

技术编号:13798114 阅读:88 留言:0更新日期:2016-10-06 20:29
本发明专利技术涉及数据分析领域,公开了一种敏感词的自动发现方法及其装置和应用。本发明专利技术中的敏感词自动发现方法包括以下步骤:获取举报行为成立的举报帐户;获取举报账户在成立的举报行为发生前所采用过的搜索关键词;基于每个搜索关键词的搜索结果中成立的被举报信息,判断搜索关键词是否为敏感词。本发明专利技术可利用举报账户的搜索行为来确定敏感词,实时有效的扩充敏感词库。

【技术实现步骤摘要】

本专利技术涉及数据分析领域,特别涉及敏感词的自动发现方法及其装置和应用
技术介绍
任何UGC(账户生成内容)网站都会面临信息内容安全的问题,包括政治敏感、色情、售假、欺诈以及广告垃圾等。因此,基于文本的敏感词过滤系统是不可或缺的。这种系统主要包含以下几个模块:1)词库的建立和更新:这一块主要依赖于人工收集的方式。2)预处理及索引创建:这一步主要是为了解决后面步骤中的快速查找,有非常成熟的解决方案,比如采用Trie树(单词查找树)的数据结构来实现。3)内容获取:取决于具体的业务模式,主要有两种实现方式,一种是调用方直接将待过滤的内容发送给系统(被动方式);另一种系统直接去抓取待过滤的内容(主动方式)。4)敏感词过滤:针对步骤3)中的内容,利用步骤2)建立的索引,检测输入的内容中是否存在需要监管或过滤的敏感词;然后根据实际业务需求直接进行屏蔽或者流入人工复审环节。上述系统方案的缺点主要在于:1)敏感词库的维护:随着业务的发展,需要持续投入大量的人力去发现、添加词库中没有的敏感词。2)敏感词的变异非常快,即使是专业的信息安全人员,要及时地发现恶意账户刻意规避网站规则的变形词,是非常困难而且比较耗时的;而这些有害信息长时间地存在也会对网站带来很大的风险。3)目前大部分网站都引入了举报机制,即允许普通账户能够针对出现在前台网页中的不良信息发起举报;然后流入到后台的人工审核系统进行处理。这种依靠广大互联网账户来协助排查的方式可以在一定程度上缓解上述的问题2),但是也存在一些问题,比如举报周期不稳定、质量参差不齐等等。
技术实现思路
本专利技术的目的在于提供一种敏感词的自动发现方法及其装置和应用,可利用举报账户的搜索行为来确定敏感词,实时有效的扩充敏感词库。为解决上述技术问题,本专利技术的实施方式公开了一种敏感词的计算机自动发现方法,包括以下步骤:获取举报行为成立的举报帐户;获取举报账户在成立的举报行为发生前所采用过的搜索关键词;基于每个搜索关键词的搜索结果中成立的被举报信息,判断搜索关键词是否为敏感词。本专利技术的实施方式还公开了一种基于计算机系统的内容过滤方法,包括以下步骤:获取内容;在获取内容中检测是否存在敏感词库中的至少一个敏感词,其中,该敏感词库中至少一部分敏感词使用上文敏感词的计算机自动发现的方法获取;如果存在,则对该内容进行过滤。本专利技术的实施方式还公开了一种敏感词的自动发现装置,包括:第一获取单元,用于获取举报行为成立的举报帐户;第二获取单元,用于获取举报账户在成立的举报行为发生前所采用过的搜索关键词;判断单元,用于基于每个搜索关键词的搜索结果中成立的被举报信息,判断搜索关键词是否为敏感词。本专利技术的实施方式还公开了一种内容过滤装置,包括:第四获取单元,用于获取内容;检测单元,用于在获取内容中检测是否存在敏感词库中的至少一个敏感词,其中,该敏感词库中至少一部分敏感词是使用上文敏感词的自动发现装置获取的;过滤单元,用于在获取内容中存在敏感词库中的至少一个敏感词时,对该内容进行过滤。本专利技术实施方式与现有技术相比,主要区别及其效果在于:利用举报账户的搜索行为来确定敏感词,可在敏感词较多,新增速度和变异速度较快的情况下,实时有效的扩充敏感词库。基于实时自动更新的敏感词库可以有效的过滤新增或者变异的敏感词对应的内容,提高网络不良信息的过滤效率,降低账户上网风险。进一步地,被举报成功的不良信息在搜索结果中出现的位置越靠前,说明用对应的敏感词进行搜索出现不良信息的风险越高,因此,将被举报信息出现在搜索结果中的先后顺序作为敏感词与被举报信息相关度的判断依据,可提高敏感词判断的准确性。进一步地,将举报成功率作为选择举报账户的标准,可以将进行恶意举
报的账户剔除。附图说明图1是本专利技术第一实施方式中一种敏感词的计算机自动发现方法的流程示意图;图2是本专利技术第四实施方式中一种基于计算机系统的内容过滤方法的流程示意图图3是本专利技术第五实施方式中一种敏感词的自动发现装置的结构示意图;图4是本专利技术第七实施方式中一种内容过滤装置的结构示意图。具体实施方式在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请各权利要求所要求保护的技术方案。为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的实施方式作进一步地详细描述。本专利技术第一实施方式涉及一种敏感词的计算机自动发现方法。图1是该敏感词的计算机自动发现方法的流程示意图。具体地说,如图1所示,该敏感词的计算机自动发现方法包括以下步骤:在步骤101中,获取举报行为成立的举报帐户。此后进入步骤102,获取举报账户在成立的举报行为发生前所采用过的
搜索关键词。此后进入步骤103,基于每个搜索关键词的搜索结果中成立的被举报信息,判断搜索关键词是否为敏感词。此后结束本流程。此外,可以理解,本专利技术中,可以通过多种方式判断搜索关键词是否为敏感词,例如,在一优选例中,上述步骤103包括以下子步骤:使用所获取的搜索关键词进行搜索以得到搜索结果;根据搜索结果中是否存在成立的被举报信息,以及成立的被举报信息在搜索结果中的位置,计算搜索关键词与成立的被举报信息的相关程度,如果相关程度大于相关度门限,则将该搜索关键词作为敏感词。其中,在计算搜索关键词与成立的被举报信息的相关程度的子步骤中,被举报信息在搜索结果中出现的位置越靠前,该搜索关键词与被举报信息的相关程度越大。此外,可以理解,在某些网站,搜索结果与选择的排序方式有关,例如,在购物网站,搜索结果可以以销售量、价格、账户收藏量等来排序,因此,不同的排序方式下,获得的相关度也不相同。可在实际的实现过程中,基于多种排序方式对搜索关键词与被举报信息的相关度进行计算,以提高敏感词判定的准确性。在本专利技术的其他实施方式中,也可以基于其他因素判断搜索关键词与被举报信息的相关度,例如被举报信息的账户浏览量、账户收藏量、销量和价格(如购物网站中)等。如果被举报信息的账户浏览量、账户收藏量或被举报的产品的销量越大,说明该举报信息的影响越大,此时,对应的搜索关键词与被举报信息的相关度越大。被举报成功的不良信息在搜索结果中出现的位置越靠前,说明用对应的敏感词进行搜索出现不良信息的风险越高,因此,将被举报信息出现在搜索结果中的先后顺序作为敏感词与被举报信息相关度的判断依据,可提高敏感词判断的准确性。此外,可以理解,在本专利技术的其他实施方式中,如果在记录举报账户的举报行为数据时,有记录举报账户在发现举报信息时采用的搜索关键词,也可以直接从举报行为数据中直接获取相应的搜索关键词,然后,利用得到的搜索关键词判断其是否为敏感词。利用举报账户的搜索行为来确定敏感词,可在敏感词较多,新增速度和变异速度较快的情况下,实时有效的扩充敏感词库。本专利技术第二实施方式涉及一种敏感词的计算机自动发现方法。本实施方式是在第一实施方式的基础上进行了改进,主要改进之处在于:将举报成功率作为选择举报账户的标准,可以将进行恶意举报的账户剔除。具体地说,上述步骤120之前,还包括以下步骤:获取每个举报行为成立的举报账户的举报成功率。并且,该步骤102还包括以下子步骤:仅获取举报成功本文档来自技高网
...

【技术保护点】
一种敏感词的计算机自动发现方法,其特征在于,包括以下步骤:获取举报行为成立的举报帐户;获取所述举报账户在成立的举报行为发生前所采用过的搜索关键词;基于每个所述搜索关键词的搜索结果中成立的被举报信息,判断所述搜索关键词是否为敏感词。

【技术特征摘要】
1.一种敏感词的计算机自动发现方法,其特征在于,包括以下步骤:获取举报行为成立的举报帐户;获取所述举报账户在成立的举报行为发生前所采用过的搜索关键词;基于每个所述搜索关键词的搜索结果中成立的被举报信息,判断所述搜索关键词是否为敏感词。2.根据权利要求1所述的敏感词的计算机自动发现方法,其特征在于,所述“基于每个所述搜索关键词的搜索结果中成立的被举报信息,判断所述搜索关键词是否为敏感词”的步骤包括以下子步骤:使用所获取的搜索关键词进行搜索以得到搜索结果;根据所述搜索结果中是否存在成立的被举报信息,以及成立的被举报信息在搜索结果中的位置,计算所述搜索关键词与成立的被举报信息的相关程度,如果相关程度大于相关度门限,则将该搜索关键词作为敏感词。3.根据权利要求2所述的敏感词的计算机自动发现方法,其特征在于,在所述“计算所述搜索关键词与成立的被举报信息的相关程度”的步骤中,所述被举报信息在所述搜索结果中出现的位置越靠前,该搜索关键词与所述被举报信息的相关程度越大。4.根据权利要求1至3中任一项所述的敏感词的计算机自动发现方法,其特征在于,在所述“获取所述举报账户在成立的举报行为发生前所采用过的搜索关键词”的步骤之前,还包括以下步骤:获取每个所述举报行为成立的举报账户的举报成功率;所述“获取所述举报账户在成立的举报行为发生前所采用过的搜索关键词”的步骤还包括以下子步骤:仅获取所述举报成功率高于成功率门限的举报账户在成立的举报行为发生前所采用过的搜索关键词。5.一种基于计算机系统的内容过滤方法,其特征在于,包括以下步骤:获取内容;在所述获取内容中检测是否存在敏感词库中的至少一个敏感词,其中,该敏感词库中至少一部分敏感词使用权利要求1至4所述的方法获取;如果存在...

【专利技术属性】
技术研发人员:薛晖
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1