The embodiment of this specification provides a keyword rule generation method and an apparatus and an electronic device. The method includes: determining a basic keyword; determining a black sample keyword set and a white sample keyword set similar to the basic keyword from the black sample and the white sample according to the basic keyword; computing the black sample gateway. The intersection of keyword set and white sample keyword set, the difference set between the intersection and the black sample keyword set, and the keyword rule are generated according to the difference set and the basic keyword set.
【技术实现步骤摘要】
关键词规则生成方法及装置和电子设备
本说明书实施例涉及互联网
,尤其涉及一种关键词规则生成方法及装置和电子设备。
技术介绍
互联网中每天都会生成海量的各种形式的信息,例如文字、图片、视频、音频等。这些生成的信息通常存在良莠不齐的现象。有些信息可能是违法信息,例如涉及暴力、恐怖主义、黄赌毒等违法信息;有些信息可能是一些违的信息,例如层出不穷、花样繁多的广告信息。一般的,可以将上述这些信息统称为不良信息。为了维护互联网环境的纯净,提升互联网上用户的体验,需要针对不良信息进行识别并处理。一般的,可以采用关键词规则的方式应对上述不良信息。即当生成的信息中存在关键词规则中所有关键词时,该信息就会被认定为不良信息,从而被屏蔽或者被删除。现有关键词规则的添加主要通过自动挖掘关键词或者人工添加关键词的方式。然而自动挖掘关键词虽然速度快但存在准确性低的问题,人工添加关键词虽然准确性较高但效率太低。需要提供一种准确性和效率兼顾的关键词规则生成方案。
技术实现思路
本说明书实施例提供的一种关键词规则生成方法及装置和电子设备:根据本说明书实施例的第一方面,提供一种关键词规则生成方法,所述方法包括:确定基础关键词;根据基础关键词从黑样本和白样本中确定与所述基础关键词相似的黑样本关键词集合和白样本关键词集合;计算所述黑样本关键词集合和白样本关键词集合的交集;计算所述交集与所述黑样本关键词集合的差集;根据所述差集和所述基础关键词,生成关键词规则。根据本说明书实施例的第二方面,提供一种关键词规则生成装置,所述装置包括:第一确定单元,确定基础关键词;第二确定单元,根据基础关键词从黑样本和 ...
【技术保护点】
1.一种关键词规则生成方法,所述方法包括:确定基础关键词;根据基础关键词从黑样本和白样本中确定与所述基础关键词相似的黑样本关键词集合和白样本关键词集合;计算所述黑样本关键词集合和白样本关键词集合的交集;计算所述交集与所述黑样本关键词集合的差集;根据所述差集和所述基础关键词,生成关键词规则。
【技术特征摘要】
1.一种关键词规则生成方法,所述方法包括:确定基础关键词;根据基础关键词从黑样本和白样本中确定与所述基础关键词相似的黑样本关键词集合和白样本关键词集合;计算所述黑样本关键词集合和白样本关键词集合的交集;计算所述交集与所述黑样本关键词集合的差集;根据所述差集和所述基础关键词,生成关键词规则。2.根据权利要求1所述的方法,所述根据基础关键词从黑样本和白样本中确定与所述基础关键词相似的黑样本关键词集合和白样本关键词集合,具体包括:计算黑样本中提取的关键词与所述基础关键词的相似度;计算白样本中提取的关键词与所述基础关键词的相似度;将黑样本中相似度值最高的预设数量个关键词确定为黑样本关键词集合;将白样本中相似度值最高的预设数量个关键词确定为白样本关键词集合。3.根据权利要求1所述的方法,所述根据基础关键词从黑样本和白样本中确定与所述基础关键词相似的黑样本关键词集合和白样本关键词集合,具体包括:计算黑样本中提取的关键词与所述基础关键词的相似度;计算白样本中提取的关键词与所述基础关键词的相似度;将黑样本中相似度值大于阈值的关键词确定为黑样本关键词集合;将白样本中相似度值大于阈值的关键词确定为白样本关键词集合。4.根据权利要求1所述的方法,所述根据所述差集和所述基础关键词,生成关键词规则,具体包括:确定所述差集中元素的每一种组合方式对应的子集;将所述基础关键词与每一个子集组合,得到关键词规则。5.根据权利要求1所述的方法,所述方法还包括:根据所述关键词规则在所述黑白样本中进行关键词检索;统计所述关键词规则命中的黑样本数、命中的白样本数;根据所述命中的黑样本数和命中的白样本数,计算出所述关键词规则的准确率;在所述准确性不超过阈值的情况下,将所述关键词规则删除。6.一种关键词规则生成装置,所述装置包括:第一确定单元,确定基础关键词;第二确定单元,根据基础关键词从黑...
【专利技术属性】
技术研发人员:周书恒,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。