违规词拓展方法、装置、设备及存储介质制造方法及图纸

技术编号:37326073 阅读:26 留言:0更新日期:2023-04-21 23:04
本发明专利技术属于计算机技术领域,公开了一种违规词拓展方法、装置、设备及存储介质。该方法包括:通过预设违规词拓展模型生成预设词根分别对应的若干拓展词;确定各拓展词与预设词根对应的相似度得分;基于预设行业分类模型确定各拓展词在多个行业内的行业初始得分;根据预设词根对应的拓展类型确定对应的权重;根据相似度得分、行业初始得分以及权重确定各拓展词对应的行业最终得分;根据行业最终得分将各拓展词作为对应行业的违规词。通过上述方式,对预设词根进行自动拓展,并区分各拓展词对应的行业,为广告违法违规性判别提供数据支持,提高了违规词库填充效率,避免了人工重复从大量的文本数据中寻找违规词,降低了人力成本。降低了人力成本。降低了人力成本。

【技术实现步骤摘要】
违规词拓展方法、装置、设备及存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种违规词拓展方法、装置、设备及存储介质。

技术介绍

[0002]现有的广告违法违规性判别中通常使用已有的违规词与广告进行匹配,而已有的违规词通过由人工重复地从大量的文本数据中寻找广告违法性质高的违规词,这种方式主观性高,词库填充效率低,并且耗费人力。
[0003]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0004]本专利技术的主要目的在于提供一种违规词拓展方法、装置、设备及存储介质,旨在解决如何实现对广告违规词进行自动扩展,避免人工重复从大量的文本数据中寻找违规词,从而降低人力成本的技术问题。
[0005]为实现上述目的,本专利技术提供了一种违规词拓展方法,所述方法包括以下步骤:
[0006]通过预设违规词拓展模型生成预设词根分别对应的若干拓展词;
[0007]确定各拓展词与所述预设词根对应的相似度得分;
[0008]基于预设行业分类模型确定各拓展词本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种违规词拓展方法,其特征在于,所述违规词拓展方法包括:通过预设违规词拓展模型生成预设词根分别对应的若干拓展词;确定各拓展词与所述预设词根对应的相似度得分;基于预设行业分类模型确定各拓展词在多个行业内的行业初始得分;根据所述预设词根对应的拓展类型确定对应的权重;根据所述相似度得分、所述行业初始得分以及所述权重确定各拓展词对应的行业最终得分;根据所述行业最终得分将各拓展词作为对应行业的违规词。2.如权利要求1所述的违规词拓展方法,其特征在于,所述通过预设违规词拓展模型生成预设词根分别对应的若干拓展词,包括:通过预设违规词拓展模型获取预设词根对应的若干相关词;根据预设数据库对所述若干相关词进行去重处理,得到若干拓展词。3.如权利要求2所述的违规词拓展方法,其特征在于,所述根据预设数据库对所述若干相关词进行去重处理,得到若干拓展词,包括:从预设数据库中确定若干当前词;分别确定所述若干当前词与所述若干相关词之间的编辑距离;根据所述编辑距离对所述若干相关词进行去重处理,得到若干拓展词。4.如权利要求3所述的违规词拓展方法,其特征在于,所述根据所述编辑距离对所述若干相关词进行去重处理,得到若干拓展词,包括:在目标相关词对应的目标编辑距离小于预设距离阈值时,删除所述目标相关词;将剩余的相关词作为若干拓展词。5.如权利要求2所述的违规词拓展方法,其特征在于,所述根据所述行业最终得分将各拓展词作为对应行业的违规词之后,所述方法还包括:将各拓展词以及对应行业存储至所述预设数据库中。6.如权利要求2所述的违规词拓展方法,其特征在于,所述根据所述行...

【专利技术属性】
技术研发人员:杭浩然吴天昊何丙南
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1