骚扰电话识别方法及其装置制造方法及图纸

技术编号:24103829 阅读:24 留言:0更新日期:2020-05-09 14:43
本发明专利技术提出一种骚扰电话识别方法及其装置,其中骚扰电话识别方法,可以包括:用户将接收到的骚扰电话号码标记为骚扰电话;提取标记的骚扰电话的特征,建立分类模型,并且使用分类模型判定待识别的主叫号码是否是骚扰电话;在用户标记与分类模型同时判定待识别的主叫号码是骚扰电话时,则主叫号码被判定为骚扰电话号码;在用户标记或者分类模型判定待识别的主叫号码为骚扰电话时,则主叫号码被判定为疑似骚扰电话号码;在用户标记和分类模型均判定待识别的主叫号码为正常电话号码时,则主叫号码被判定为正常电话号码;将骚扰电话号码、疑似骚扰电话号码、正常电话号码以及对应的号码类别存储在数据库中。

Identification method and device of harassment telephone

【技术实现步骤摘要】
骚扰电话识别方法及其装置
本专利技术涉及通信大数据领域,尤其涉及一种骚扰电话识别方法、装置、计算机设备和计算机可读存储介质。
技术介绍
“骚扰电话”是指推销产品或者是一些冒充警方、银行工作人员进行诈骗以及故意电话骚扰的行为。按骚扰目的可分为商业营销类、恶意骚扰类和违法犯罪类。识别骚扰电话在社会生活中具有广泛的应用。当前,营销电话扰民、恶意电话骚扰等问题日益突出,严重影响人民群众正常生活。更严重的,有些冒充公检法机关进行电话诈骗,造成人民的巨大财产损失。骚扰电话识别目前主要采用如下两种方案来解决:骚扰词典方案:这种方案人工收集关键词。若任一可疑号码所在的目标通话记录包含的关键词中存在预设词典记录的骚扰特征词,则将所在的目标通话记录中存在骚扰特征词的可疑号码判定为骚扰电话号码。规则识别方案:这种方案人工分析骚扰电话的特点,总结出一套用于识别的规则,对号码进行识别。上述两种方案使用场景有所不同,所带来的问题和不足也有所不同:骚扰词典方案实现起来比较简单,骚扰词典由人工制定,关键词的覆盖度不高,这样直接影响了骚扰电话的识别率,从而导致大部分骚扰电话无法被识别。规则识别方案分析了骚扰电话的特点,但识别方法由人工制定,准确率不高,可能会导致误判。因此现有技术中迫切需要一种更加合理的方式,从而提高识别结果的准确性和覆盖率。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。根据本专利技术的第一个方面,提供了一种骚扰电话识别方法,可以包括:<br>用户将接收到的骚扰电话号码标记为骚扰电话;提取标记的骚扰电话的特征,建立分类模型,并且使用分类模型判定待识别的主叫号码是否是骚扰电话;在用户标记与分类模型同时判定待识别的主叫号码是骚扰电话时,则主叫号码被判定为骚扰电话号码;在用户标记或者分类模型判定待识别的主叫号码为骚扰电话时,则主叫号码被判定为疑似骚扰电话号码;在用户标记和分类模型均判定待识别的主叫号码为正常电话号码时,则主叫号码被判定为正常电话号码;将骚扰电话号码、疑似骚扰电话号码、正常电话号码以及对应的号码类别存储在数据库中。在本专利技术的一个实施例中,其中用户将接收到的骚扰电话号码标记为骚扰电话可以包括:用户根据通话内容、通话意图、来电显示号码、或者主叫方语音语调将接收到的骚扰电话号码标记为骚扰电话。在本专利技术的另一个实施例中,其中提取标记的骚扰电话的特征,建立分类模型可以包括:提取置信度较高的标记的骚扰电话的特征,建立分类模型。在本专利技术的再一个实施例中,其中标记的骚扰电话的特征包括属性特征和行为特征,属性特征包括号码类型、号码归属地、号码运营商;行为特征包括平均拨出未接响铃时间、拨出接通比、拨出拒接比例、呼入拨出比、呼入拨出时间比、平均接通时间。在本专利技术的又一个实施例中,其中将骚扰电话号码、疑似骚扰电话号码、正常电话号码以及对应的号码类别存储在数据库中可以包括:以骚扰电话号码、疑似骚扰电话号码、正常电话号码为密钥值k,对应的号码类别为数值v,将密钥值k和数值v写入k-v数据库。在本专利技术的一个实施例中,其中分类模型可以包括随机森林模型。根据本专利技术的第二个方面,提供了一种骚扰电话识别装置,可以包括:标记单元,配置为使得用户能够将接收到的骚扰电话号码标记为骚扰电话;构建单元,用于提取标记的骚扰电话的特征,建立分类模型,并且使用分类模型判定待识别的主叫号码是否是骚扰电话,在用户标记与分类模型同时判定待识别的主叫号码是骚扰电话时,则主叫号码被判定为骚扰电话号码;在用户标记或者分类模型判定待识别的主叫号码为骚扰电话时,则主叫号码被判定为疑似骚扰电话号码;在用户标记和分类模型均判定待识别的主叫号码为正常电话号码时,则主叫号码被判定为正常电话号码;数据库,用于存储骚扰电话号码、疑似骚扰电话号码、正常电话号码以及对应的号码类别。在本专利技术的一个实施例中,其中标记单元还可以配置为:使得用户能够根据通话内容、通话意图、来电显示号码、或者主叫方语音语调将接收到的骚扰电话号码标记为骚扰电话。在本专利技术的另一个实施例中,其中在标记单元中,提取标记的骚扰电话的特征还可以包括:提取置信度较高的标记的骚扰电话的特征,建立分类模型。在本专利技术的再一个实施例中,其中标记的骚扰电话的特征包括属性特征和行为特征,属性特征包括号码类型、号码归属地、号码运营商;行为特征包括平均拨出未接响铃时间、拨出接通比、拨出拒接比例、呼入拨出比、呼入拨出时间比、平均接通时间。在本专利技术的又一个实施例中,其中数据库是k-v数据库,其中存储有以骚扰电话号码、疑似骚扰电话号码、正常电话号码为密钥值k、对应的号码类别为数值v的k-v数据。在本专利技术的一个实施例中,其中分类模型包括随机森林模型。根据本专利技术的第三个方面,提供了一种计算机设备,可以包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述的方法。根据本专利技术的第四个方面,提供了一种计算机可读存储介质,其存储有计算机程序,当该程序被处理器执行时实现上述的方法。借助于本专利技术的骚扰电话识别方法、装置、计算机设备或者计算机可读存储介质,能够有效解决骚扰电话数据短缺的问题,满足了整治骚扰电话扰民问题、切实净化通信服务环境的需求。用户将接收到的骚扰电话号码标记为骚扰电话,能够获得高质量的样本,解决数据冷启动的问题。提取标记的骚扰电话的特征,建立分类模型,并且使用分类模型判定待识别的主叫号码是否是骚扰电话,也就是利用数据挖掘和机器学习技术,深入分析这些高质量的样本、提取特征、训练模型,能解决人工制定规则准确率不高的问题。最终借助于用户标记和分类模型的综合判定,进一步提升了骚扰电话识别结果的准确性和覆盖率。上述概述仅仅是为了说明的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本专利技术公开的一些实施方式,而不应将其视为是对本专利技术范围的限制。图1示意性示出根据本专利技术第一个方面的骚扰电话识别方法的一个实施例;图2示意性示出根据本专利技术第一个方面的用户将接收到的骚扰电话号码标记为骚扰电话的一个实施例;图3示意性示出根据本专利技术第一个方面的提取标记的骚扰电话的特征,建立分类模型,并且使用分类模型判定待识别的主叫号码是否是骚扰电话的一个实施例;图4示意性示出根据本专利技术第一个方面的关于标记的骚扰电话的特征的一个实施例;图5示意性示出根据本专利技术第一个方面的将骚扰电话号码、疑似骚扰电话号码、正常电话号码以及对应的号码类别存本文档来自技高网...

【技术保护点】
1.一种骚扰电话识别方法,其特征在于,包括:/n用户将接收到的骚扰电话号码标记为骚扰电话;/n提取所述标记的骚扰电话的特征,建立分类模型,并且使用所述分类模型判定待识别的主叫号码是否是骚扰电话;/n在所述用户标记与所述分类模型同时判定所述待识别的主叫号码是骚扰电话时,则所述主叫号码被判定为骚扰电话号码;在所述用户标记或者所述分类模型判定所述待识别的主叫号码为骚扰电话时,则所述主叫号码被判定为疑似骚扰电话号码;在所述用户标记和所述分类模型均判定所述待识别的主叫号码为正常电话号码时,则所述主叫号码被判定为正常电话号码;/n将所述骚扰电话号码、疑似骚扰电话号码、正常电话号码以及对应的号码类别存储在数据库中。/n

【技术特征摘要】
1.一种骚扰电话识别方法,其特征在于,包括:
用户将接收到的骚扰电话号码标记为骚扰电话;
提取所述标记的骚扰电话的特征,建立分类模型,并且使用所述分类模型判定待识别的主叫号码是否是骚扰电话;
在所述用户标记与所述分类模型同时判定所述待识别的主叫号码是骚扰电话时,则所述主叫号码被判定为骚扰电话号码;在所述用户标记或者所述分类模型判定所述待识别的主叫号码为骚扰电话时,则所述主叫号码被判定为疑似骚扰电话号码;在所述用户标记和所述分类模型均判定所述待识别的主叫号码为正常电话号码时,则所述主叫号码被判定为正常电话号码;
将所述骚扰电话号码、疑似骚扰电话号码、正常电话号码以及对应的号码类别存储在数据库中。


2.根据权利要求1所述的骚扰电话识别方法,其中用户将接收到的骚扰电话号码标记为骚扰电话包括:
用户根据通话内容、通话意图、来电显示号码、或者主叫方语音语调将接收到的骚扰电话号码标记为骚扰电话。


3.根据权利要求2所述的骚扰电话识别方法,其中提取所述标记的骚扰电话的特征,建立分类模型包括:
提取置信度较高的所述标记的骚扰电话的特征,建立分类模型。


4.根据权利要求3所述的骚扰电话识别方法,其中所述标记的骚扰电话的特征包括属性特征和行为特征,所述属性特征包括号码类型、号码归属地、号码运营商;所述行为特征包括平均拨出未接响铃时间、拨出接通比、拨出拒接比例、呼入拨出比、呼入拨出时间比、平均接通时间。


5.根据权利要求4中所述的骚扰电话识别方法,其中将所述骚扰电话号码、疑似骚扰电话号码、正常电话号码以及对应的号码类别存储在数据库中包括:
以所述骚扰电话号码、疑似骚扰电话号码、正常电话号码为密钥值k,对应的号码类别为数值v,将所述密钥值k和所述数值v写入k-v数据库。


6.根据权利要求1-5中任一项所述的骚扰电话识别方法,其中所述分类模型包括随机森林模型。


7.一种骚扰电话识别装置,其特征在于,包括:
标记单元,配置为使得用户能够将接收到的骚扰电话号码标记为骚扰电话;
构建单元,用于提取所述标记的...

【专利技术属性】
技术研发人员:陈程杨敬彭继东杨旭虹
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1