短信垃圾新词识别方法、装置及电子设备制造方法及图纸

技术编号:23558607 阅读:13 留言:0更新日期:2020-03-25 04:06
本申请公开了垃圾短信新词识别方法、装置、电子设备。其中,所述方法包括:获取短信集合;确定多个垃圾短信对应的候选词集合;根据短信类别信息,确定候选词的短信类别倾向性相关指标;以及,获取候选词的文档稀有性相关指标;根据短信类别倾向性相关指标和文档稀有性相关指标,确定候选词的垃圾短信新词得分;根据垃圾短信新词得分,从候选词集合中确定垃圾短信新词。采用这种处理方式,使得根据短信类别倾向性相关指标召回的大多数新词均对垃圾短信具有代表意义,避免召回很多正常的词汇;因此,可以有效提升召准率。同时,这种处理方式,使得根据文档稀有性的相关指标可召回低频的垃圾短信新词;因此,可以有效提升召全率。

Method, device and electronic equipment of SMS spam new word recognition

【技术实现步骤摘要】
短信垃圾新词识别方法、装置及电子设备
本申请涉及文本挖掘
,具体涉及短信垃圾新词识别方法和装置,以及电子设备。
技术介绍
一种典型的短信发送场景是,商家通过网络平台向消费者发送短信,以便于将商品促销等信息及时送至消费者处,从而确保商家销售计划的有效实施,并提升用户体验。然而,伴随着这些有益效果的同时,也出现了大量垃圾短信。垃圾短信泛滥,已经严重影响到消费者正常生活、网络平台形象乃至社会稳定。随着互联网技术的不断发展,越来越多的网络平台利用短信内容安全系统对商对客(Business-to-Customer,B2C)的短信进行内容分析,并进行智能短信拦截和通道优化。其中,垃圾短信新词发现是短信内容安全系统的一个重要功能,有效地挖掘垃圾短信新词可提高垃圾短信识别模型准确率,可以及时地应对线上的垃圾短信变种,并可以为短信审核人员提供每天线上新出现的垃圾变种词。目前,垃圾短信新词识别方法主要分为两类:基于有监督的新词发现的垃圾短信新词识别方法、和基于无监督的新词发现的垃圾短信新词识别方法。其中,有监督的新词发现技术要依赖序列标注结果实现,该方法成本高,不容易获取语料;无监督的新词发现技术,通过某些指标来计算未包括在垃圾短信词典中的候选短语的成词概率,根据成词概率判断候选短语是否为垃圾短信新词,该方法成本低且效率高。由于无监督的新词发现技术具有成本低且效率高的优点,因此成为一种最为常用的垃圾短信新词识别方案。然而,在实现本专利技术过程中,专利技术人发现基于无监督的新词发现技术的垃圾短信新词识别技术方案至少存在如下问题:一方面,由于简单地依赖简单的频率特征(如词的出现频率等)进行识别,而没有考虑类别的分布,因此容易召回很多正常的词汇,由此导致后续审核成本较高;另一方面,由于要依赖简单的频率特征计算成词概率,而垃圾短信中变异的新词出现频率低,因此这类词的成词概率就会低,这样就无法识别出这类垃圾短信新词,出现低频垃圾短信新词无法被召回的问题。综上所述,现有技术存在垃圾短信新词召全率且召准率均较低的问题。
技术实现思路
本申请提供短信垃圾新词识别方法,以解决现有技术存在的垃圾短信新词召全率且召准率均较低的问题。本申请另外提供短信垃圾新词识别装置,以及电子设备。本申请提供一种短信垃圾新词识别方法,包括:获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;确定所述多个垃圾短信对应的候选词集合;根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性相关指标;以及,获取所述候选词的文档稀有性相关指标;根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分;根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词。可选的,所述确定所述多个垃圾短信对应的候选词集合,包括:通过分词算法,获取所述垃圾短信包括的词,作为短信词;若至少两个相邻短信词构成的组合词符合候选词规则,则将所述组合词作为所述候选词。可选的,所述候选词规则包括候选词的字数小于预设字数。可选的,所述短信类别倾向性相关指标包括以下指标的至少一项:交叉熵,优势率,互信息;所述文档稀有性相关指标包括:倒文档频率IDF。可选的,所述根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分,包括:将所述短信类别倾向性相关指标和所述文档稀有性相关指标的加权平均值作为所述垃圾短信新词得分。可选的,所述根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词,包括:将所述垃圾短信新词得分大于得分阈值的所述候选词作为垃圾短信新词。可选的,所述根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词,包括:获取并展示所述垃圾短信新词得分大于得分阈值的新词;接收针对目标新词的确定指令;将所述目标新词为所述垃圾短信新词。可选的,所述根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词,包括:获取所述垃圾短信新词得分大于得分阈值的新词,作为候选的垃圾短信新词;确定所述候选的垃圾短信新词的成词概率;根据所述成词概率,从所述候选的垃圾短信新词中确定所述垃圾短信新词。可选的,所述根据所述成词概率,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:将所述成词概率大于成词概率阈值的候选的垃圾短信新词作为所述垃圾短信新词。可选的,所述根据所述成词概率,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:获取并展示所述成词概率大于成词概率阈值的候选的垃圾短信新词;接收用户输入的针对目标新词的确定指令;将所述目标新词为所述垃圾短信新词。可选的,所述确定所述候选的垃圾短信新词的成词概率,包括:确定所述候选的垃圾短信新词的内部结合度;以及,确定所述候选的垃圾短信新词的边界自由度;根据所述内部凝聚度和所述外部自由度,获取所述候选的垃圾短信新词的成词概率。可选的,所述根据所述内部凝聚度和所述外部自由度,获取所述候选的垃圾短信新词的成词概率,包括:将所述内部凝聚度和所述外部自由度的平均值作为所述成词概率。可选的,所述根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词,包括:获取所述垃圾短信新词得分大于得分阈值的所述候选词,作为候选的垃圾短信新词;确定至少一个预设垃圾短信词汇分别与所述候选的垃圾短信新词之间的语义相似度;根据所述语义相似度,确定所述候选的垃圾短信新词的垃圾短信词汇相似度;根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词。可选的,所述根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:将所述垃圾短信词汇相似度大于第一相似度阈值或小于第二相似度阈值的所述候选的垃圾短信新词作为垃圾短信新词。可选的,所述根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:获取并展示所述垃圾短信词汇相似度大于第一相似度阈值或小于第二相似度阈值的所述候选的垃圾短信新词;接收针对目标候选新词的确定指令;将所述目标候选新词为所述垃圾短信新词。可选的,所述根据所述语义相似度,确定所述候选的垃圾短信新词的垃圾短信词汇相似度,包括:将所述语义相似度的最大值作为所述垃圾短信词汇相似度。可选的,所述确定至少一个预设垃圾短信词汇分别与所述候选的垃圾短信新词之间的语义相似度,包括:确定所述候选新词的词向量;根据所述预设垃圾短信词汇的词向量和所述候选新词的词向量,确定所述预设垃圾词汇与所述候选新词之间的语义相似度。本申请还提供一种垃圾短信新词识别方法,包括:获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;确定所述多个垃圾短信对应的候本文档来自技高网
...

【技术保护点】
1.一种垃圾短信新词识别方法,其特征在于,包括:/n获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;/n确定所述多个垃圾短信对应的候选词集合;/n根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性相关指标;以及,获取所述候选词的文档稀有性相关指标;/n根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分;/n根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词。/n

【技术特征摘要】
1.一种垃圾短信新词识别方法,其特征在于,包括:
获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;
确定所述多个垃圾短信对应的候选词集合;
根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性相关指标;以及,获取所述候选词的文档稀有性相关指标;
根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分;
根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词。


2.根据权利要求1所述的方法,其特征在于,所述确定所述多个垃圾短信对应的候选词集合,包括:
通过分词算法,获取所述垃圾短信包括的词,作为短信词;
若至少两个相邻短信词构成的组合词符合候选词规则,则将所述组合词作为所述候选词。


3.根据权利要求2所述的方法,其特征在于,所述候选词规则包括候选词的字数小于预设字数。


4.根据权利要求1所述的方法,其特征在于,
所述短信类别倾向性相关指标包括以下指标的至少一项:交叉熵,优势率,互信息;
所述文档稀有性相关指标包括:倒文档频率IDF。


5.根据权利要求1所述的方法,其特征在于,所述根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分,包括:
将所述短信类别倾向性相关指标和所述文档稀有性相关指标的加权平均值作为所述垃圾短信新词得分。


6.根据权利要求1所述的方法,其特征在于,所述根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词,包括:
将所述垃圾短信新词得分大于得分阈值的所述候选词作为垃圾短信新词。


7.根据权利要求1所述的方法,其特征在于,所述根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词,包括:
获取并展示所述垃圾短信新词得分大于得分阈值的新词;
接收针对目标新词的确定指令;
将所述目标新词为所述垃圾短信新词。


8.根据权利要求1所述的方法,其特征在于,所述根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词,包括:
获取所述垃圾短信新词得分大于得分阈值的新词,作为候选的垃圾短信新词;
确定所述候选的垃圾短信新词的成词概率;
根据所述成词概率,从所述候选的垃圾短信新词中确定所述垃圾短信新词。


9.根据权利要求8所述的方法,其特征在于,所述根据所述成词概率,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:
将所述成词概率大于成词概率阈值的候选的垃圾短信新词作为所述垃圾短信新词。


10.根据权利要求8所述的方法,其特征在于,所述根据所述成词概率,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:
获取并展示所述成词概率大于成词概率阈值的候选的垃圾短信新词;
接收用户输入的针对目标新词的确定指令;
将所述目标新词为所述垃圾短信新词。


11.根据权利要求8所述的方法,其特征在于,所述确定所述候选的垃圾短信新词的成词概率,包括:
确定所述候选的垃圾短信新词的内部结合度;以及,确定所述候选的垃圾短信新词的边界自由度;
根据所述内部凝聚度和所述外部自由度,获取所述候选的垃圾短信新词的成词概率。


12.根据权利要求11所述的方法,其特征在于,所述根据所述内部凝聚度和所述外部自由度,获取所述候选的垃圾短信新词的成词概率,包括:
将所述内部凝聚度和所述外部自由度的平均值作为所述成词概率。


13.根据权利要求1所述的方法,其特征在于,所述根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词,包括:
获取所述垃圾短信新词得分大于得分阈值的所述候选词,作为候选的垃圾短信新词;
确定至少一个预设垃圾短信词汇分别与所述候选的垃圾短信新词之间的语义相似度;
根据所述语义相似度,确定所述候选的垃圾短信新词的垃圾短信词汇相似度;
根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词。


14.根据权利要求13所述的方法,其特征在于,所述根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:
将所述垃圾短信词汇相似度大于第一相似度阈值或小于第二相似度阈值的所述候选的垃圾短信新词作为垃圾短信新词。


15.根据权利要求13所述的方法,其特征在于,所述根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:
获取并展示所述垃圾短信词汇相似度大于第一相似度阈值或小于第二相似度阈值的所述候选的垃圾短信新词;
接收针对目标候选新词的确定指令;
将所述目标候选新词为所述垃圾短信新词。


16.根据权利要求13所述的方法,其特征在于,所述根据所述语义相似度,确定所述候选的垃圾短信新词的垃圾短信词汇相似度,包括:
将所述语义相似度的最大值作为所述垃圾短信词汇相似度。


17.根据权利要求13所述的方法,其特征在于,所述确定至少一个预设垃圾短信词汇分别与所述候选的垃圾短信新词之间的语义相似度,包括:
确定所述候选新词的词向量;
根据所述预设垃圾短信词汇的词向量和所述候选新词的词向量,确定所述预设垃圾词汇与所述候选新词之间的语义相似度。


18.一种垃圾短信新词识别方法,其特征在于,包括:
获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;
确定所述多个垃圾短信对应的候选词集合;
根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性得分;
根据所述短信类别倾向性得分,从所述候选词集合中确定垃圾短信新词。


19.根据权利要求18所述的方法,其特征在于,所述根据所述短信类别倾向性得分,从所述候选词集合中确定垃圾短信新词,包括:
获取所述短信类别倾向性得分大于得分阈值的...

【专利技术属性】
技术研发人员:高喆康杨杨周笑添孙常龙刘晓钟司罗
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1