基于频繁集挖掘的关键词规则生成方法及其装置制造方法及图纸

技术编号:20842194 阅读:16 留言:0更新日期:2019-04-13 08:42
本申请涉及互联网领域,公开了一种基于频繁集挖掘的关键词规则生成方法及其装置。所述方法包括:提取风险文本中的基础关键词;将所述基础关键词组装为基础关键词文本;对所述基础关键词文本进行频繁集挖掘,得到频繁集项;对所述频繁集项所代表的关键词规则进行有效性检验;通过有效性检验的所述关键词规则作为最终采用的关键词规则。能够自动生成适量的高质量的关键词,可以有效提高关键词规则的创建效率,从而快速有效地应对风险文本。

【技术实现步骤摘要】
基于频繁集挖掘的关键词规则生成方法及其装置
本申请涉及互联网领域,特别涉及一种基于频繁集挖掘的关键词规则生成技术。
技术介绍
随着互联网技术不断进步,越来越多的用户参与网络进行讨论、获取知识,在用户得到便利的同时,也给了黑灰产更多的可乘之机。垃圾广告、违禁品买卖、谣言、赌博等信息正不断渗透到互联网平台中,严重影响了用户体验和平台发展。为了快速防控此类风险,平台方常利用关键词策略过滤文本内容。比如为了识别过滤赌博文本,可以配置策略:“下注^奖励^发财”,该策略的含义是:如果检测文本中同时包含“下注”,“奖励”,“发财”三个词则认为该文本是有风险的。为了生成高质量的关键词策略,常采用人工提取关键词,然后再进行关键词组合的方式。很明显在面对大量风险文本时,这种方法时耗长,且限于人工知识难以提取高质量关键词组合。基于人工的关键词规则:具体来说就是根据黑文本中频繁出现的某种文字模式,人工总结出关键词规则,比如“花呗^套现”,“vpn^翻墙”等。但是随着用户量的增多,用户的UGC(UserGeneratedContent,用户原创内容)内容呈指数级上升,随之而来的违规内容也越来越多,风险形式也越来越多样。如果仍然使用人工构建关键词规则的方法,将付出大量的人力,而且对于风险的覆盖情况也难以保证。基于排列组合的关键词规则生成:具体来说就是根据基础关键词暴力穷举出所有的关键词组合。例如有8000条文本,平均每条文本的基础关键词数量为42。如果限制关键词规则包含的词数在3-5之间,那么单条文本构成的规则有:近10万条。即使不同文本间的规则重复率很高,假设平均每条文本生成的规则为1万条,那么8000条文本共生成8千万条规则,显然如此大量的规则将对后续的使用带来困难。因此,目前需要一种能够自动生成适量的高质量关键词的技术。
技术实现思路
本申请的目的在于提供一种基于频繁集挖掘的关键词规则生成方法及其装置,能够自动生成适量的高质量的关键词,可以有效提高关键词规则的创建效率,从而快速有效地应对风险文本。为解决上述技术问题,本专利技术的实施方式公开了一种基于频繁集挖掘的关键词规则生成方法,包括以下步骤:提取风险文本中的基础关键词;将所述基础关键词组装为基础关键词文本;对所述基础关键词文本进行频繁集挖掘,得到频繁集项;对所述频繁集项所代表的关键词规则进行有效性检验;通过有效性检验的所述关键词规则作为最终采用的关键词规则。本专利技术的实施方式还公开了一种基于频繁集挖掘的关键词规则生成装置,包括:关键词提取模块,用于提取风险文本中的基础关键词;组装模块,用于将所述关键词提取模块所提取出的基础关键词组装为基础关键词文本;频繁集挖掘模块,用于对所述组装模块所组装的基础关键词文本进行频繁集挖掘,得到频繁集项;检验模块,用于对所述频繁集挖掘模块输出的频繁集项所代表的关键词规则进行有效性检验;输出模块,用于输出通过所述检验模块的有效性检验的关键词规则,作为最终采用的关键词规则。本专利技术的实施方式还公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现上述方法中的步骤。本专利技术实施方式与现有技术相比,主要区别及其效果在于:能够自动生成适量的高质量的关键词,可以有效提高关键词规则的创建效率,从而快速有效地应对风险文本。本申请的说明书中记载了大量的技术特征,分布在各个技术方案中,如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话,会使得说明书过于冗长。为了避免这个问题,本申请上述
技术实现思路
中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均因视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E的方案应当视为已经被记载。附图说明图1是根据本申请第一实施方式的一种基于频繁集挖掘的关键词规则生成方法的流程示意图;图2是根据本申请第一实施方式的一个优选实施例的流程示意图;图3是根据本申请第二实施方式的一种基于频繁集挖掘的关键词规则生成装置的结构示意图。具体实施方式在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。概念说明:关键词,源于英文“keywords”,特指单个媒体在制作使用索引时,所用到的词汇。关键词搜索是网络搜索索引主要方法之一,就是访问者希望了解的产品、服务和公司等的具体名称用语。风险文本:对平台可能造成危害的文本内容。频繁集:数据集中频繁出现的项集,序列或子结构。为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。本申请的第一实施方式涉及一种基于频繁集挖掘的关键词规则生成方法。图1是该基于频繁集挖掘的关键词规则生成方法的流程示意图。具体地说,如图1所示,该基于频繁集挖掘的关键词规则生成方法包括以下步骤:在步骤101中,提取风险文本中的基础关键词。优选地,在步骤101中,利用TFIDF算法提取风险文本中的基础关键词。TFIDF(TermFrequencyInverseDocumentFrequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(TermFrequency),IDF意思是逆文本频率指数(InverseDocumentFrequency)。TFIDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TFIDF算法作为一个基础算法,在机器学习领域经常用到。作为现有技术中的一种成熟技术,在此不再进一步详细介绍。当然,这只是一种优选的实施方式。在本专利技术的其他某些实施方式中,也可以利用其他算法提取风险文本中的基础关键词,而不以此为限。此后进入步骤102,将所述基础关键词组装为基础关键词文本。在步骤102中,根据TFIDF提取到的关键词,将原风险文本组装成频繁集挖掘算法的输入。举个例子来说,比如原文本分词后由w1、w2、w3、w4和w5组成,利用TFIDF提取到的关键词是w2、w5、w6和w7,则将w2和w5组装频繁集算法的输入文本。此后进入步骤103,对所述基础关键词文本进行频繁集挖掘,得到频繁集项。频繁集挖掘是数据挖掘研究课题中一个很重要的研究基础,它可以告诉我们在数据集中经常一起出现的变量,为可能的决策提供一些支持。频繁集挖掘是关联规则、相关性分析、因果关系、序列项集、局部周期性、情节片段等许多重要数据挖掘任务的基础。因此,频繁集挖掘有着很广泛的应用,例如:购物蓝数据分析、网页预取、交叉购物、个性化网站、网络入侵检测等。频繁集挖掘算法,就是用来挖掘频繁出现的变本文档来自技高网
...

【技术保护点】
1.一种基于频繁集挖掘的关键词规则生成方法,其特征在于,包括以下步骤:提取风险文本中的基础关键词;将所述基础关键词组装为基础关键词文本;对所述基础关键词文本进行频繁集挖掘,得到频繁集项;对所述频繁集项所代表的关键词规则进行有效性检验;通过有效性检验的所述关键词规则作为最终采用的关键词规则。

【技术特征摘要】
1.一种基于频繁集挖掘的关键词规则生成方法,其特征在于,包括以下步骤:提取风险文本中的基础关键词;将所述基础关键词组装为基础关键词文本;对所述基础关键词文本进行频繁集挖掘,得到频繁集项;对所述频繁集项所代表的关键词规则进行有效性检验;通过有效性检验的所述关键词规则作为最终采用的关键词规则。2.如权利要求1所述的方法,其特征在于,所述提取风险文本中的基础关键词的步骤中,利用TFIDF算法提取风险文本中的基础关键词。3.如权利要求1所述的方法,其特征在于,所述对所述频繁集项所代表的关键词规则进行有效性检验的步骤中,使用验证数据集对所述关键词规则进行有效性检验。4.如权利要求3所述的方法,其特征在于,所述验证数据集包括:黑文本和白文本。5.如权利要求4所述的方法,其特征在于,所述有效性检验的指标包括:关键词规则命中的文本数、命中的黑文本数、命中的白文本数和/或准确率。6.如权利要求1至5中任一项所述的方法,其特征在于,在所述通过有效性检验的所述关键词规则作为最终采用的关键词规则的步骤中,通过有效性检验的所述关键词规则包括:准确率大于阈值的关键词规则。7.一种基于频繁集挖掘的关键词规则生成装置,其特征在于,包括:关键词提取模块,用于提取风险文本中的基础关键词...

【专利技术属性】
技术研发人员:周书恒祝慧佳赵智源郭亚
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1