关键词规则生成方法及装置和电子设备制造方法及图纸

技术编号:19009192 阅读:25 留言:0更新日期:2018-09-22 09:03
本说明书实施例提供一种关键词规则生成方法及装置和电子设备,所述方法包括:确定基础关键词;根据基础关键词从黑样本和白样本中确定与所述基础关键词相似的黑样本关键词集合和白样本关键词集合;计算所述黑样本关键词集合和白样本关键词集合的交集;计算所述交集与所述黑样本关键词集合的差集;根据所述差集和所述基础关键词,生成关键词规则。

Keyword rule generation method and device and electronic device

The embodiment of this specification provides a keyword rule generation method and an apparatus and an electronic device. The method includes: determining a basic keyword; determining a black sample keyword set and a white sample keyword set similar to the basic keyword from the black sample and the white sample according to the basic keyword; computing the black sample gateway. The intersection of keyword set and white sample keyword set, the difference set between the intersection and the black sample keyword set, and the keyword rule are generated according to the difference set and the basic keyword set.

【技术实现步骤摘要】
关键词规则生成方法及装置和电子设备
本说明书实施例涉及互联网
,尤其涉及一种关键词规则生成方法及装置和电子设备。
技术介绍
互联网中每天都会生成海量的各种形式的信息,例如文字、图片、视频、音频等。这些生成的信息通常存在良莠不齐的现象。有些信息可能是违法信息,例如涉及暴力、恐怖主义、黄赌毒等违法信息;有些信息可能是一些违的信息,例如层出不穷、花样繁多的广告信息。一般的,可以将上述这些信息统称为不良信息。为了维护互联网环境的纯净,提升互联网上用户的体验,需要针对不良信息进行识别并处理。一般的,可以采用关键词规则的方式应对上述不良信息。即当生成的信息中存在关键词规则中所有关键词时,该信息就会被认定为不良信息,从而被屏蔽或者被删除。现有关键词规则的添加主要通过自动挖掘关键词或者人工添加关键词的方式。然而自动挖掘关键词虽然速度快但存在准确性低的问题,人工添加关键词虽然准确性较高但效率太低。需要提供一种准确性和效率兼顾的关键词规则生成方案。
技术实现思路
本说明书实施例提供的一种关键词规则生成方法及装置和电子设备:根据本说明书实施例的第一方面,提供一种关键词规则生成方法,所述方法包括:确定基础关键词;根据基础关键词从黑样本和白样本中确定与所述基础关键词相似的黑样本关键词集合和白样本关键词集合;计算所述黑样本关键词集合和白样本关键词集合的交集;计算所述交集与所述黑样本关键词集合的差集;根据所述差集和所述基础关键词,生成关键词规则。根据本说明书实施例的第二方面,提供一种关键词规则生成装置,所述装置包括:第一确定单元,确定基础关键词;第二确定单元,根据基础关键词从黑样本和白样本中确定与所述基础关键词相似的黑样本关键词集合和白样本关键词集合;第一计算单元,计算所述黑样本关键词集合和白样本关键词集合的交集;第二计算单元,计算所述交集与所述黑样本关键词集合的差集;生成单元,根据所述差集和所述基础关键词,生成关键词规则。根据本说明书实施例的第四方面,提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为实现上述任一项所述的关键词规则生成方法。本说明书实施例,基于已确定的基础关键词在黑白样本中获取相似关键词即确定黑样本关键词集合和白样本关键词集合;通过计算黑样本关键词集合和白样本关键词集合的交集,可以提取出的同时位于黑白样本中的关键词集合中的元素;然后通过计算所述交集与所述黑样本关键词集合的差集,可以从所述黑样本关键词集合中删除同时位于黑白样本中的关键词集合中的元素,则所述差集中元素就只存在于黑样本。如此生成的关键词规则专门针对黑样本,提升了关键词规则的准确性。附图说明图1是本说明书一实施例提供的关键词规则生成方法的流程图;图2是本说明书一实施例示提供的关键词规则生成装置的硬件结构图;图3是本说明书一实施例提供的关键词规则生成装置的模块示意图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。如前所述,现有关键词规则的添加主要通过自动挖掘关键词或者人工添加关键词的方式。对于自动挖掘关键词:以黑样本为基础,采用关键词提取算法例如TextRank、TF-IDF(TermFrequency-InverseDocumentFrequency)、LDA(LatentDirichletAllocation,文档主题生成模型)等提取出关键词。但是这样提取出的关键词,可能也大量存在与白样本中。也就是说基于上述方式提取出的关键词生成关键词规则,在实际应用中,容易将正常信息也当作不良信息处理,影响用户体验。例如对于资金套现类的信息,假设基于黑样本提取的关键词为“信用卡”,然后在正常信息中也经常出现“信用卡”,如果将“信用卡”作为关键词并生成关键词规则,那么会将出现了“信用卡”的正常信息也识别为不良信息。对于人工添加关键词:具体来说就是技术或者运营人员根据个人的专业知识以及累计的经验构造出关键词,从而将对个关键词组合出关键词规则。人工方式不仅效率低下,而且由于人的局限性,无法对整个互联网的不良内容有全面的感知和把控。这样,使得关键词规则只能覆盖部分不良信息。本说明书中提到的关键词规则是指至少一个关键词。例如对于资金套现类的信息,可能存在如下关键词规则:花呗^秒回,花^呗^微信,白条^银行卡;其中,花呗^秒回可以表示为如果文本信息中即有“花呗”又有“秒回”这两个关键词,则该文本信息具有高风险。需要说明的是,本说明书中关键词规则主要可以针对文本类信息进行处理;而对于多媒体信息如图片信息、视频信息、音频信息,需要进行预处理。具体地,可以通过图像识别技术如OCR技术(OpticalCharacterRecognition,光学字符识别)识别出图片信息、视频信息中的文本信息,然后在运用关键词规则对识别出的文本信息进行处理。可以通过语音识别技术将音频信息转换为文本信息,然后在运用关键词规则对识别出的文本信息进行处理。以下可以结合图1所示的例子介绍本说明书一种实现关键词规则生成方法的实施例,如图1所示,该方法可以包括以下步骤:步骤110:确定基础关键词。在一实施例中,所述基础关键词可以是指已存在的关键词。也可以是人为输入的关键词。在一实施例中,还可以是自动确定基础关键词,例如自动从网络中爬取基础关键词,或者从存储有基础关键词的数据库中获取基础关键词。再例如,可以是将前述自动挖掘关键词得到的关键词作为基础关键词。步骤120:根据基础关键词从黑样本和白样本中确定与所述基础关键词相似的黑样本关键词集合和白样本关键词集合。在一实施例中,所述黑样本可以是指已经识别出的不良信息。所述白样本可以是已经识别出的正常信息(非不良信息)。在一实施例中,可以基于关键词提取技术从黑白样本中提取出的关键词,然后可以采用相似度算法计算基础关键词和关键词的相似度。具体地,针对文本类信息,可以采用文本相似度算法例如SimHash算法,Jaccard(杰卡德)相似度算法,Cosine(余弦)相似度算法等等。所述关键词提取技术例如可以包括句法分析算法、语法分析算法等。由于关键词提取算法、相似度算法是本领域常用的,本说明书中不再进行赘述。在一实施例中,所述步骤120根据基础关键本文档来自技高网...
关键词规则生成方法及装置和电子设备

【技术保护点】
1.一种关键词规则生成方法,所述方法包括:确定基础关键词;根据基础关键词从黑样本和白样本中确定与所述基础关键词相似的黑样本关键词集合和白样本关键词集合;计算所述黑样本关键词集合和白样本关键词集合的交集;计算所述交集与所述黑样本关键词集合的差集;根据所述差集和所述基础关键词,生成关键词规则。

【技术特征摘要】
1.一种关键词规则生成方法,所述方法包括:确定基础关键词;根据基础关键词从黑样本和白样本中确定与所述基础关键词相似的黑样本关键词集合和白样本关键词集合;计算所述黑样本关键词集合和白样本关键词集合的交集;计算所述交集与所述黑样本关键词集合的差集;根据所述差集和所述基础关键词,生成关键词规则。2.根据权利要求1所述的方法,所述根据基础关键词从黑样本和白样本中确定与所述基础关键词相似的黑样本关键词集合和白样本关键词集合,具体包括:计算黑样本中提取的关键词与所述基础关键词的相似度;计算白样本中提取的关键词与所述基础关键词的相似度;将黑样本中相似度值最高的预设数量个关键词确定为黑样本关键词集合;将白样本中相似度值最高的预设数量个关键词确定为白样本关键词集合。3.根据权利要求1所述的方法,所述根据基础关键词从黑样本和白样本中确定与所述基础关键词相似的黑样本关键词集合和白样本关键词集合,具体包括:计算黑样本中提取的关键词与所述基础关键词的相似度;计算白样本中提取的关键词与所述基础关键词的相似度;将黑样本中相似度值大于阈值的关键词确定为黑样本关键词集合;将白样本中相似度值大于阈值的关键词确定为白样本关键词集合。4.根据权利要求1所述的方法,所述根据所述差集和所述基础关键词,生成关键词规则,具体包括:确定所述差集中元素的每一种组合方式对应的子集;将所述基础关键词与每一个子集组合,得到关键词规则。5.根据权利要求1所述的方法,所述方法还包括:根据所述关键词规则在所述黑白样本中进行关键词检索;统计所述关键词规则命中的黑样本数、命中的白样本数;根据所述命中的黑样本数和命中的白样本数,计算出所述关键词规则的准确率;在所述准确性不超过阈值的情况下,将所述关键词规则删除。6.一种关键词规则生成装置,所述装置包括:第一确定单元,确定基础关键词;第二确定单元,根据基础关键词从黑...

【专利技术属性】
技术研发人员:周书恒
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1