敏感词挖掘方法及其装置、设备、介质制造方法及图纸

技术编号:35107147 阅读:18 留言:0更新日期:2022-10-01 17:18
本申请涉及电商信息技术领域中一种敏感词挖掘方法及其装置、设备、介质、产品,所述方法包括:获取数据集,所述数据集包括敏感文本及其所属的敏感类型;对各个敏感类型相对应的所述敏感文本进行多种粒度相对应的敏感词提取操作,确定出多种粒度相对应的分词,其中,第一种粒度的敏感词基于单词进行操作,第二种粒度的敏感词基于分词进行操作,第三种粒度的敏感词基于共现词进行操作;构造敏感词表,将所提取的敏感词与其所在的敏感文本所属的敏感类型关联存储于该敏感词表中。本申请能够以不同粒度精准挖掘出多类敏感词,为敏感词检测提供可靠和充足的参考信息,有助于提升电商信息安全检测的可靠性。安全检测的可靠性。安全检测的可靠性。

【技术实现步骤摘要】
敏感词挖掘方法及其装置、设备、介质


[0001]本申请涉及电商信息
,尤其涉及一种敏感词挖掘方法及其相应的装置、计算机设备、计算机可读存储介质。

技术介绍

[0002]敏感词检测是现代网络监控的必要功能,检测维度主要包括暴恐、色情、低俗、辱骂等等多种类型。在跨境电商中敏感词检测同样至关重要,电商平台的敏感词可能广泛出现在商品的商品信息中,例如商品标题、商品描述、商品图片上的文字中,因而需要通过检测确保商品信息中不存在敏感词,方可允许将商品发布上线至电商平台。
[0003]传统技术中,多采用神经网络模型基于待检测文本的深层语义信息进行分类映射,将待检测文本映射为不同的敏感类型标签。众所周知,神经网络模型的训练成本较高,严重依赖训练样本,但在跨境电商平台中,各个独立站的语料非常有限,难以适用人工智能方案。神经网络模型的延时较高,以及需要的运算资源多,所以,尽管神经网络模型相关的技术更为前沿,但在适应跨境电商服务场景需求时,总体效果反而不佳。
[0004]一种更传统的方式中,可以基于规则匹配的方式进行敏感词检测,但这种方式严重依赖于敏感词库的词汇量和准确性。对于敏感词库的构建,传统的方式多基于人工采集或者粗召回来获取,常导致词汇量不足或者不够精准,因而,如何实现对敏感词的有效数据挖掘,值得探索。

技术实现思路

[0005]本申请的首要目的在于解决上述问题至少之一而提供一种敏感词挖掘方法及其相应的装置、计算机设备、计算机可读存储介质。
[0006]为满足本申请的各个目的,本申请采用如下技术方案:
[0007]适应本申请的目的之一而提供的一种敏感词挖掘方法,包括如下步骤:
[0008]获取数据集,所述数据集包括敏感文本及其所属的敏感类型;
[0009]对各个敏感类型相对应的所述敏感文本进行多种粒度相对应的敏感词提取操作,确定出多种粒度相对应的分词,其中,第一种粒度的敏感词基于单词进行操作,第二种粒度的敏感词基于分词进行操作,第三种粒度的敏感词基于共现词进行操作;
[0010]构造敏感词表,将所提取的敏感词与其所在的敏感文本所属的敏感类型关联存储于该敏感词表中。
[0011]进一步的实施例中,获取数据集之前,还包括如下步骤:
[0012]获取存在敏感词的历史商品的商品图片及文本信息,所述文本信息包括商品的商品描述信息;
[0013]采用预先训练至收敛的图文识别模型,提取出所述存在敏感词的商品图片中的图片文本,将该图片文本和所述文本信息作为敏感文本;
[0014]采用预先训练至收敛的文本分类模型对所述敏感文本进行分类,获得敏感文本对
应的敏感类型构造出数据集。
[0015]较佳的实施例中,构造敏感词表之后,还包括如下步骤:
[0016]响应商品发布请求,获取商品的商品图片及文本信息,提取出相应的待检测文本,所述文本信息包括商品的商品描述信息;
[0017]将待检测文本与敏感词表中多粒度相对应的敏感词进行匹配,获得相匹配的目标敏感词;
[0018]根据所述各种粒度相对应的敏感词对应预设的敏感系数,统计所述目标敏感词对应的敏感系数,获得敏感置信度作为所述待检测文本对应的检测评分;
[0019]当待检测文本的检测评分达到预设阈值时,判定该待检测文本为敏感文本,向发送所述商品发布请求的客户端推送商品发布失败通知。
[0020]深化的实施例中,对各个敏感类型相对应的所述敏感文本进行多种粒度相对应的敏感词提取操作,包括如下步骤:
[0021]逐一调用数据集中的各个敏感类型的敏感文本进行多个字长相对应的分词操作,获得各个字长相对应的分词所构成的分词集;
[0022]根据所述分词集,确定每个敏感类型相对应的单词粒度的分词子集、分词粒度的分词子集,以及共现词粒度的分词子集;
[0023]对应统计出每个敏感类型下,各个分词在该敏感类型的敏感文本中出现的词频相对应的关键评分;
[0024]根据所述关键评分为各个敏感类型优选出相应粒度所对应的分词作为该敏感类型相对应的敏感词。
[0025]进一步的实施例中,对应统计出每个敏感类型下,各个分词在该敏感类型的敏感文本中出现的词频相对应的关键评分,包括如下步骤:
[0026]针对每个敏感类型,统计其相对应的各个分词在该敏感类型相对应的所有敏感文本中出现的词频;
[0027]针对每个敏感类型,统计其相对应的各个分词在其他敏感类型相对应的所有敏感文本中出现的逆文本频率指数;
[0028]将每个分词的词频和逆文本频率指数的乘积确定为相应分词的关键评分。
[0029]深化的实施例中,将待检测文本与敏感词表中多粒度相对应的敏感词进行匹配,获得相匹配的目标敏感词的步骤中,所述敏感词表将各个敏感类型的敏感词存储为知识图谱结构,其中,第三种粒度的敏感词作为第二种粒度的敏感词的上级节点,具有节点连接关系的第三种粒度的敏感词与第二种粒度的敏感词之间,包含相同的第一种粒度的敏感词;第二种粒度的敏感词作为第一种粒度的敏感词的上级节点。
[0030]另一方面,适应本申请的目的之一而提供的一种敏感词挖掘装置,包括数据获取模块、敏感词提取模块以及词表构造模块,其中:数据获取模块,用于获取数据集,所述数据集包括敏感文本及其所属的敏感类型;敏感词提取模块,用于对各个敏感类型相对应的所述敏感文本进行多种粒度相对应的敏感词提取操作,确定出多种粒度相对应的分词,其中,第一种粒度的敏感词基于单词进行操作,第二种粒度的敏感词基于分词进行操作,第三种粒度的敏感词基于共现词进行操作;词表构造模块,用于构造敏感词表,将所提取的敏感词与其所在的敏感文本所属的敏感类型关联存储于该敏感词表中。
[0031]进一步的实施例中,所述数据获取模块之前,还包括:历史数据获取子模块,用于获取存在敏感词的历史商品的商品图片及文本信息,所述文本信息包括商品的商品描述信息;图文识别子模块,用于采用预先训练至收敛的图文识别模型,提取出所述存在敏感词的商品图片中的图片文本,将该图片文本和所述文本信息作为敏感文本;文本分类子模块,用于采用预先训练至收敛的文本分类模型对所述敏感文本进行分类,获得敏感文本对应的敏感类型构造出数据集。
[0032]较佳的实施例中,所述词表构造模块之后,还包括:请求响应子模块,用于响应商品发布请求,获取商品的商品图片及文本信息,提取出相应的待检测文本,所述文本信息包括商品的商品描述信息;敏感词匹配子模块,用于将待检测文本与敏感词表中多粒度相对应的敏感词进行匹配,获得相匹配的目标敏感词;检测评分子模块,用于根据所述各种粒度相对应的敏感词对应预设的敏感系数,统计所述目标敏感词对应的敏感系数,获得敏感置信度作为所述待检测文本对应的检测评分;通知推送子模块,用于当待检测文本的检测评分达到预设阈值时,判定该待检测文本为敏感文本,向发送所述商品发布请求的客户端推送商品发布失败通知。
[0033]深化的实施例中,所述敏感词提取模块,包括:文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种敏感词挖掘方法,其特征在于,包括如下步骤:获取数据集,所述数据集包括敏感文本及其所属的敏感类型;对各个敏感类型相对应的所述敏感文本进行多种粒度相对应的敏感词提取操作,确定出多种粒度相对应的分词,其中,第一种粒度的敏感词基于单词进行操作,第二种粒度的敏感词基于分词进行操作,第三种粒度的敏感词基于共现词进行操作;构造敏感词表,将所提取的敏感词与其所在的敏感文本所属的敏感类型关联存储于该敏感词表中。2.根据权利要求1所述的敏感词挖掘方法,其特征在于,获取数据集之前,还包括如下步骤:获取存在敏感词的历史商品的商品图片及文本信息,所述文本信息包括商品的商品描述信息;采用预先训练至收敛的图文识别模型,提取出所述存在敏感词的商品图片中的图片文本,将该图片文本和所述文本信息作为敏感文本;采用预先训练至收敛的文本分类模型对所述敏感文本进行分类,获得敏感文本对应的敏感类型构造出数据集。3.根据权利要求1所述的敏感词挖掘方法,其特征在于,构造敏感词表之后,还包括如下步骤:响应商品发布请求,获取商品的商品图片及文本信息,提取出相应的待检测文本,所述文本信息包括商品的商品描述信息;将待检测文本与敏感词表中多粒度相对应的敏感词进行匹配,获得相匹配的目标敏感词;根据所述各种粒度相对应的敏感词对应预设的敏感系数,统计所述目标敏感词对应的敏感系数,获得敏感置信度作为所述待检测文本对应的检测评分;当待检测文本的检测评分达到预设阈值时,判定该待检测文本为敏感文本,向发送所述商品发布请求的客户端推送商品发布失败通知。4.根据权利要求1所述的敏感词挖掘方法,其特征在于,对各个敏感类型相对应的所述敏感文本进行多种粒度相对应的敏感词提取操作,包括如下步骤:逐一调用数据集中的各个敏感类型的敏感文本进行多个字长相对应的分词操作,获得各个字长相对应的分词所构成的分词集;根据所述分词集,确定每个敏感类型相对应的单词粒度的分词子集、分词粒度的分词子集,以及共现词粒度的分词子集;对应统计出每个敏感类型下,各个分词在该敏感类型的敏感文本中出现的词频相对应的关键评分;根据所述关键评分为各个敏感类型优选出相应粒度所对应...

【专利技术属性】
技术研发人员:郑彦
申请(专利权)人:广州欢聚时代信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1