一种深度聚类诈骗检测的方法和装置制造方法及图纸

技术编号:20825775 阅读:28 留言:0更新日期:2019-04-10 07:30
本申请公开了一种深度聚类的诈骗通话检测方法,包括:对所有话单数据进行深度聚类形成多个簇,将所述多个簇与诈骗簇的指标值进行比较,将与所述指标值匹配度最高的簇作为诈骗簇;获取所述诈骗簇中的主叫号码呼叫过的各被叫号码,根据话单数据确定呼叫过所述各被叫号码的所有主叫号码,利用所述各被叫号码和所述所有主叫号码进行复杂网络建模;在建模的复杂网络中,进行社区发现,并根据各社区包含所述诈骗簇中主叫号码的比例,确定诈骗高风险社区;对所述诈骗高风险社区中的各次通话进行语音识别,根据语音识别结果进行诈骗电话的判决和分类。应用本申请,能够在保证实时性的基础上能够更准确的发现诈骗通话。

【技术实现步骤摘要】
一种深度聚类诈骗检测的方法和装置
本申请涉及诈骗检测技术,特别涉及一种深度聚类的诈骗检测方法和装置。
技术介绍
随着通信行业的不断发展,在带来更多便利的同时,随之而来的是电信网络诈骗活动的猖獗,电话诈骗的手段越来越多,让人们防不胜防。目前采用的诈骗电话检测方法主要有呼叫地来源检测、黑名单拦截等,这些方法普遍具有实时性和灵活性差的问题。诈骗技术和方法的更新很容易导致原有拦截手段的失效。目前高发的诈骗电话主要集中于固定电话用户,大部分主叫号码来自境外,诈骗者通过改号软件或者VOIP技术绕过现有的拦截手段,实现诈骗呼叫。经过研究发现,诈骗团伙往往内部存在一定的组织结构,诈骗行为也存在分阶段的特性,在第一阶段诈骗份子进行“广撒网”式的拨打,这种诈骗往往存在较明显的行为特征,如主叫呼叫频次高、被叫离散度高、平均呼叫时长短、接通率低等特征,这主要是因为犯罪分子在此阶段利用呼叫平台进行群呼扫描,寻找潜在受害者。找到潜在受害者,进入下一阶段后,诈骗电话的行为特征与正常通话的特征较为接近,通过呼叫特征进行挖掘较为困难。目前还有一些识别诈骗电话的方法,但是也都存在各种问题,例如:方案一:采集通话信令数据或话单数据,从中提取特征与诈骗模型进行对比来判断是否是诈骗,如专利CN106791220A(申请名称:防止电话诈骗的方法及系统,申请人:国家计算机网络与信息安全管理中心,申请日:2016.11.30);在该方案中,提取所述实时话单的号码特征和/或行为特征;根据预设的诈骗电话识别模型对所述实时话单的号码特征和/或行为特征进行分析,以确定所述实时话单对应的通话行为是否为诈骗电话。该方案的缺点在于,由于诈骗电话的呼叫模式特征与广告电话较为相似,且会不断更新诈骗手段,仅通过数学建模进行分析的号码缺乏实证,使得误拦截率较高。方案二:在通话过程中将通话录音与诈骗样本库进行实时对比来判断是否是诈骗电话,如专利CN104469025A(申请名称:一种基于聚类算法的实时拦截诈骗电话的方法和系统,申请人:杭州东信北邮信息技术有限公司,申请日:2014.11.26)。在该方案中,采集呼叫话单数据并分析黑名单,对黑名单电话进行单单向录音,将录音文件与诈骗语音样本库进行对比,以此确定通话是否是诈骗。此方案主要缺陷在于诈骗手段多种多样,且在时刻变化,想要构建覆盖全网的诈骗语音样本库非常困难,且所需的资源要求极大;录音文件与诈骗语音库的全对比技术实现复杂,比对消耗资源且准确率难以令人满意。方案三:采用语音识别和语义分析技术进行诈骗判断,如专利CN103179122A(申请名称:一种基于语音语义内容分析的防电信电话诈骗方法和系统,申请人:马博,申请日:2013.03.22)。该方案中通过连续语音识别进行文本转写,并在转写的文本中检索关键词和关键数字进行语义匹配来识别诈骗电话。此方案主要缺点在于要对全部电话做语音识别,进行文本转写,由于全网呼叫量非常大,想达到理想的效果,就要求部署海量容量的语音识别设备和大量的计算资源,在不影响现网正常运行的要求下无法达到。方案四:从呼叫日志中挖掘分析可疑号码,再通过人工审核方式进行进一步确认拦截,如专利CN106550155A(申请名称:对可疑号码进行诈骗样本甄别归类及拦截的方法及系统,申请人:上海欣方智能系统有限公司,申请日:2016.11.25)。该方案通过从呼叫日志中挖掘行为特征,通过关联判决规则形成灰名单,再通过录音取证装置对灰名单呼叫进行录音取证,之后将录音和取证结果发送到黑名单判断装置,通过人工判断进一步确认诈骗号码,对诈骗通话的识别和拦截。此方案的主要缺点在于,仅通过提取的呼叫频次、被叫离散度等行为特征是否符合关联判决规则进行灰名单号码的挖掘,只能找出行为特征与正常呼叫差别较大的号码,对于行为模式与正常呼叫接近的诈骗通话无能为力,并且关联规则需要预先设置。方案五:先通过主叫号码的行为特征进行分析,如果发现可疑号码立马进行录音进行进一步确认,如专利CN107734128A(申请名称:一种诈骗号码识别方法及设备,申请人:努比亚技术有限公司,申请日:2017.09.28)。该方案根据主叫号码的行为特征,判断所述主叫号码是否为与诈骗号码具有相似特征的疑似诈骗号码;如果是,对所述主叫号码所执行的通话进行录音,根据语音信息判断是否为诈骗号码。此方案的主要缺点在于,从行为特征来说,仅仅通过比较行为特征是否匹配,难以应对多变的诈骗手段;从语音信息来说,仅仅通过匹配语音中是否含有诈骗关键词就进行判断,往往不能那么精确。
技术实现思路
本申请提供一种深度聚类的诈骗检测方法和装置,能够在保证实时性的基础上能够更准确的发现诈骗通话。为实现上述目的,本申请采用如下技术方案:一种深度聚类的诈骗通话检测方法,包括:对所有话单数据进行深度聚类形成多个簇,将所述多个簇与诈骗簇的指标值进行比较,将与所述指标值匹配度最高的簇作为诈骗簇;获取所述诈骗簇中的主叫号码呼叫过的各被叫号码,根据话单数据确定呼叫过所述各被叫号码的所有主叫号码,利用所述各被叫号码和所述所有主叫号码进行复杂网络建模;在建模的复杂网络中,进行社区发现,并根据各社区包含所述诈骗簇中主叫号码的比例,确定诈骗高风险社区;对所述诈骗高风险社区中的各次通话进行语音识别,根据语音识别结果进行诈骗电话的判决和分类。较佳地,所述进行复杂网络建模包括:将各主叫和被叫号码建模为复杂网络中的节点,若任意两个节点间有一通呼叫,则在相应节点间添加一条边,边的方向代表主被叫关系,根据各条边对应通话的特征设置相应边的权重。较佳地,所述通话的特征包括:主叫号码主叫次数、通话时长、号码呼叫时间间隔、主被叫号码归属地中的一种或任意组合。较佳地,所述主叫号码主叫次数越大,边的权重越大;所述通话时长越长,边的权重越大;所述号码呼叫时间间隔越短,边的权重越大;主被叫归属地越相似,边的权重越大。较佳地,所述根据各社区包含所述诈骗簇中主叫号码的比例确定诈骗高风险社区包括:当一社区中包含所述诈骗簇中主叫号码的比例达到或超过预设的阈值时,确定该社区为诈骗高风险社区。一种深度聚类的诈骗通话检测装置,包括:诈骗簇识别模块、社区发现模块、语音识别模块和诈骗通话识别模块;所述诈骗簇识别模块,用于对所有话单数据进行深度聚类形成多个簇,将所述多个簇与诈骗簇的指标值进行比较,将与所述指标值匹配度最高的簇作为诈骗簇;所述社区发现模块,用于获取所述诈骗簇中的主叫号码呼叫过的各被叫号码,根据话单数据确定呼叫过所述各被叫号码的所有号码,利用所述各被叫号码和所述所有号码进行复杂网络建模;在建模的复杂网络中,进行社区发现,并根据各社区包含所述诈骗簇中主叫号码的比例,确定诈骗高风险社区;所述语音识别模块,用于对所述诈骗高风险社区中的各次通话进行语音识别;所述诈骗通话识别模块,用于根据语音识别结果进行诈骗电话的判决和分类。由上述技术方案可见,本申请中,对所有话单数据进行深度聚类形成多个簇,将所述多个簇与诈骗簇的指标值进行比较,将与所述指标值匹配度最高的簇作为诈骗簇;获取诈骗簇中的主叫号码呼叫过的各被叫号码,根据话单数据确定呼叫过各被叫号码的所有号码,利用上述各被叫号码和所有号码进行复杂网络建模;在建模的复杂网络中,进行社区发现,并根据各社区包含所本文档来自技高网
...

【技术保护点】
1.一种深度聚类的诈骗通话检测方法,其特征在于,包括:对所有话单数据进行深度聚类形成多个簇,将所述多个簇与诈骗簇的指标值进行比较,将与所述指标值匹配度最高的簇作为诈骗簇;获取所述诈骗簇中的主叫号码呼叫过的各被叫号码,根据话单数据确定呼叫过所述各被叫号码的所有主叫号码,利用所述各被叫号码和所述所有主叫号码进行复杂网络建模;在建模的复杂网络中,进行社区发现,并根据各社区包含所述诈骗簇中主叫号码的比例,确定诈骗高风险社区;对所述诈骗高风险社区中的各次通话进行语音识别,根据语音识别结果进行诈骗电话的判决和分类。

【技术特征摘要】
1.一种深度聚类的诈骗通话检测方法,其特征在于,包括:对所有话单数据进行深度聚类形成多个簇,将所述多个簇与诈骗簇的指标值进行比较,将与所述指标值匹配度最高的簇作为诈骗簇;获取所述诈骗簇中的主叫号码呼叫过的各被叫号码,根据话单数据确定呼叫过所述各被叫号码的所有主叫号码,利用所述各被叫号码和所述所有主叫号码进行复杂网络建模;在建模的复杂网络中,进行社区发现,并根据各社区包含所述诈骗簇中主叫号码的比例,确定诈骗高风险社区;对所述诈骗高风险社区中的各次通话进行语音识别,根据语音识别结果进行诈骗电话的判决和分类。2.根据权利要求1所述的方法,其特征在于,所述进行复杂网络建模包括:将各主叫和被叫号码建模为复杂网络中的节点,若任意两个节点间有一通呼叫,则在相应节点间添加一条边,边的方向代表主被叫关系,根据各条边对应通话的特征设置相应边的权重。3.根据权利要求2所述的方法,其特征在于,所述通话的特征包括:主叫号码主叫次数、通话时长、号码呼叫时间间隔、主被叫号码归属地中的一种或任意组合。4.根据权利要求3所述的方法,其特征在于,所述主叫号码主叫次数越大,边的权重越大;...

【专利技术属性】
技术研发人员:张震林荣恒彭潞闵星邹华吴步丹
申请(专利权)人:国家计算机网络与信息安全管理中心北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1