【技术实现步骤摘要】
短信垃圾新词识别方法、装置及电子设备
本申请涉及文本挖掘
,具体涉及短信垃圾新词识别方法和装置,以及电子设备。
技术介绍
一种典型的短信发送场景是,商家通过网络平台向消费者发送短信,以便于将商品促销等信息及时送至消费者处,从而确保商家销售计划的有效实施,并提升用户体验。然而,伴随着这些有益效果的同时,也出现了大量垃圾短信。垃圾短信泛滥,已经严重影响到消费者正常生活、网络平台形象乃至社会稳定。随着互联网技术的不断发展,越来越多的网络平台利用短信内容安全系统对商对客(Business-to-Customer,B2C)的短信进行内容分析,并进行智能短信拦截和通道优化。其中,垃圾短信新词发现是短信内容安全系统的一个重要功能,有效地挖掘垃圾短信新词可提高垃圾短信识别模型准确率,可以及时地应对线上的垃圾短信变种,并可以为短信审核人员提供每天线上新出现的垃圾变种词。目前,垃圾短信新词识别方法主要分为两类:基于有监督的新词发现的垃圾短信新词识别方法、和基于无监督的新词发现的垃圾短信新词识别方法。其中,有监督的新词发现技术要依赖序列标注结果实现,该方法成本高,不容易获取语料;无监督的新词发现技术,通过某些指标来计算未包括在垃圾短信词典中的候选短语的成词概率,根据成词概率判断候选短语是否为垃圾短信新词,该方法成本低且效率高。由于无监督的新词发现技术具有成本低且效率高的优点,因此成为一种最为常用的垃圾短信新词识别方案。然而,在实现本专利技术过程中,专利技术人发现基于无监督的新词发现技术的垃圾短信新词识别技术方案至少存 ...
【技术保护点】
1.一种垃圾短信新词识别方法,其特征在于,包括:/n获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;/n确定所述多个垃圾短信对应的候选词集合;/n根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性相关指标;以及,获取所述候选词的文档稀有性相关指标;/n根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分;/n根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词。/n
【技术特征摘要】
1.一种垃圾短信新词识别方法,其特征在于,包括:
获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;
确定所述多个垃圾短信对应的候选词集合;
根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性相关指标;以及,获取所述候选词的文档稀有性相关指标;
根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分;
根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词。
2.根据权利要求1所述的方法,其特征在于,所述确定所述多个垃圾短信对应的候选词集合,包括:
通过分词算法,获取所述垃圾短信包括的词,作为短信词;
若至少两个相邻短信词构成的组合词符合候选词规则,则将所述组合词作为所述候选词。
3.根据权利要求2所述的方法,其特征在于,所述候选词规则包括候选词的字数小于预设字数。
4.根据权利要求1所述的方法,其特征在于,
所述短信类别倾向性相关指标包括以下指标的至少一项:交叉熵,优势率,互信息;
所述文档稀有性相关指标包括:倒文档频率IDF。
5.根据权利要求1所述的方法,其特征在于,所述根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分,包括:
将所述短信类别倾向性相关指标和所述文档稀有性相关指标的加权平均值作为所述垃圾短信新词得分。
6.根据权利要求1所述的方法,其特征在于,所述根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词,包括:
将所述垃圾短信新词得分大于得分阈值的所述候选词作为垃圾短信新词。
7.根据权利要求1所述的方法,其特征在于,所述根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词,包括:
获取并展示所述垃圾短信新词得分大于得分阈值的新词;
接收针对目标新词的确定指令;
将所述目标新词为所述垃圾短信新词。
8.根据权利要求1所述的方法,其特征在于,所述根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词,包括:
获取所述垃圾短信新词得分大于得分阈值的新词,作为候选的垃圾短信新词;
确定所述候选的垃圾短信新词的成词概率;
根据所述成词概率,从所述候选的垃圾短信新词中确定所述垃圾短信新词。
9.根据权利要求8所述的方法,其特征在于,所述根据所述成词概率,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:
将所述成词概率大于成词概率阈值的候选的垃圾短信新词作为所述垃圾短信新词。
10.根据权利要求8所述的方法,其特征在于,所述根据所述成词概率,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:
获取并展示所述成词概率大于成词概率阈值的候选的垃圾短信新词;
接收用户输入的针对目标新词的确定指令;
将所述目标新词为所述垃圾短信新词。
11.根据权利要求8所述的方法,其特征在于,所述确定所述候选的垃圾短信新词的成词概率,包括:
确定所述候选的垃圾短信新词的内部结合度;以及,确定所述候选的垃圾短信新词的边界自由度;
根据所述内部凝聚度和所述外部自由度,获取所述候选的垃圾短信新词的成词概率。
12.根据权利要求11所述的方法,其特征在于,所述根据所述内部凝聚度和所述外部自由度,获取所述候选的垃圾短信新词的成词概率,包括:
将所述内部凝聚度和所述外部自由度的平均值作为所述成词概率。
13.根据权利要求1所述的方法,其特征在于,所述根据所述垃圾短信新词得分,从所述候选词集合中确定垃圾短信新词,包括:
获取所述垃圾短信新词得分大于得分阈值的所述候选词,作为候选的垃圾短信新词;
确定至少一个预设垃圾短信词汇分别与所述候选的垃圾短信新词之间的语义相似度;
根据所述语义相似度,确定所述候选的垃圾短信新词的垃圾短信词汇相似度;
根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词。
14.根据权利要求13所述的方法,其特征在于,所述根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:
将所述垃圾短信词汇相似度大于第一相似度阈值或小于第二相似度阈值的所述候选的垃圾短信新词作为垃圾短信新词。
15.根据权利要求13所述的方法,其特征在于,所述根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:
获取并展示所述垃圾短信词汇相似度大于第一相似度阈值或小于第二相似度阈值的所述候选的垃圾短信新词;
接收针对目标候选新词的确定指令;
将所述目标候选新词为所述垃圾短信新词。
16.根据权利要求13所述的方法,其特征在于,所述根据所述语义相似度,确定所述候选的垃圾短信新词的垃圾短信词汇相似度,包括:
将所述语义相似度的最大值作为所述垃圾短信词汇相似度。
17.根据权利要求13所述的方法,其特征在于,所述确定至少一个预设垃圾短信词汇分别与所述候选的垃圾短信新词之间的语义相似度,包括:
确定所述候选新词的词向量;
根据所述预设垃圾短信词汇的词向量和所述候选新词的词向量,确定所述预设垃圾词汇与所述候选新词之间的语义相似度。
18.一种垃圾短信新词识别方法,其特征在于,包括:
获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;
确定所述多个垃圾短信对应的候选词集合;
根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性得分;
根据所述短信类别倾向性得分,从所述候选词集合中确定垃圾短信新词。
19.根据权利要求18所述的方法,其特征在于,所述根据所述短信类别倾向性得分,从所述候选词集合中确定垃圾短信新词,包括:
获取所述短信类别倾向性得分大于得分阈值的...
【专利技术属性】
技术研发人员:高喆,康杨杨,周笑添,孙常龙,刘晓钟,司罗,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。