多卡宝号码识别方法、装置制造方法及图纸

技术编号:29498228 阅读:32 留言:0更新日期:2021-07-30 19:11
本发明专利技术公开了一种多卡宝号码识别方法、装置,所述方法包括:获取样本中每个样本号码取样周期内的短期时序特征和长期时序特征;将短期时序特征和长期时序特征进行拼接获得相应的特征矩阵;将存在通联关系的样本号码特征矩阵输入图注意力网络,输入号码的特征更新为与输入号码通联的号码特征的加权和;将样本号码的特征输入transformer模型,将号码所有日期的特征进行融合后输出,再经过全连接层输出结果,确定样本号码是否为多卡宝号码。采用上述技术方案,可以准确、快速地识别号码是否为多卡宝号码。

【技术实现步骤摘要】
多卡宝号码识别方法、装置
本专利技术涉及通信领域,尤其涉及一种多卡宝号码识别方法、装置。
技术介绍
多卡宝(Simbox)是一种多卡多待的外部扩展设备。用户可以将多张手机卡插入到一台多卡宝中,使用时通过手机App连接多卡宝,则可以使用手机拨打电话、发送信息和接听电话等,通过一部手机同时操作多个电话卡。多卡宝的设计初衷是好的,但是在实际使用中,多卡宝经常被不法分子用作是诈骗的工具,包括将境外通话转化为境内通话,导致运营商通信营收减少,一人同时向多人拨打电话和发送短信等。因此,如何从众多号码中识别多卡宝号码成为了预防违法行为的重要途径,现有技术中还没有成熟的技术方案可以实现多卡宝号码的识别。
技术实现思路
专利技术目的:本专利技术提供一种多卡宝号码识别方法、装置,旨在基于样本号码的特征和通联关系,通过图注意力网络和transformer模型判断号码是否为多卡宝号码。技术方案:本专利技术提供一种多卡宝号码识别方法,包括:获取样本中每个样本号码取样周期内的特征,其中特征包括与通信时间和次数有关的短期时序特征,以及与设备和地区有关的长期时序特征;将短期时序特征和长期时序特征进行拼接获得相应的特征矩阵;将存在通联关系的样本号码特征矩阵输入图注意力网络,输入号码的特征更新为与输入号码通联的号码特征的加权和;其中通联关系指多个样本号码与同一号码存在通信关系;将样本号码的特征输入transformer模型,将号码所有日期的特征进行融合后输出,再经过全连接层输出结果,确定样本号码是否为多卡宝号码。具体的,将长期时序特征按照取样周期内短期时序的数量进行复制,与短期时序特征拼接。具体的,采用以下公式计算更新后的号码i的特征hi':hi'=σ(∑i,j∈gaijWhj),其中,aij=softmax(eij),hi和hj分别为样本号码i和j的特征矩阵,样本号码i和j之间存在通联关系,g表示存在通联关系的号码,σ表示sigmoid函数,W表示训练参数。具体的,采用以下公式计算特征融合后的输出fi':fi'=∑j=1,2,3,4,5,6,7bijW'fj,其中,W'表示训练参数,fi表示样本号码第i天的特征。具体的,全连接层输出1×1的结果,若结果不小于0,则判断对应的样本号码是多卡宝号码;若结果小于0,则判断对应的样本号码不是多卡宝号码。本专利技术还提供一种多卡宝号码识别装置,包括:特征获取单元、特征合并单元、特征加权单元、特征融合单元和结果判断单元,其中:所述特征获取单元,用于获取样本中每个样本号码取样周期内的特征,其中特征包括与通信时间和次数有关的短期时序特征,以及与设备和地区有关的长期时序特征;所述特征合并单元,用于将短期时序特征和长期时序特征进行拼接获得相应的特征矩阵;所述特征加权单元,用于将存在通联关系的样本号码特征矩阵输入图注意力网络,输入号码的特征更新为与输入号码通联的号码特征的加权和;其中通联关系指多个样本号码与同一号码存在通信关系;所述特征融合单元,用于将样本号码的特征输入transformer模型,将号码所有日期的特征进行融合后输出;所述结果判断单元,用于将融合后的输出输入全连接层,根据输出结果确定样本号码是否为多卡宝号码。具体的,所述特征合并单元,用于将长期时序特征按照取样周期内短期时序的数量进行复制,与短期时序特征拼接。具体的,所述特征加权单元,用于采用以下公式计算更新后的号码i的特征hi':hi'=σ(∑i,j∈gaijWhj),其中,aij=softmax(eij),hi和hj分别为样本号码i和j的特征矩阵,样本号码i和j之间存在通联关系,g表示存在通联关系的号码,σ表示sigmoid函数,W表示训练参数。具体的,所述特征融合单元,用于采用以下公式计算特征融合后的输出fi':fi'=∑j=1,2,3,4,5,6,7bijW'fj,其中,W'表示训练参数,fi表示样本号码第i天的特征。具体的,所述结果判断单元,用于全连接层输出1×1的结果,若结果不小于0,则判断对应的样本号码是多卡宝号码;若结果小于0,则判断对应的样本号码不是多卡宝号码。有益效果:与现有技术相比,本专利技术具有如下显著优点:准确、快速地识别号码是否为多卡宝号码。附图说明图1为本专利技术提供的多卡宝号码识别方法的流程示意图;图2为本专利技术提供的图注意力网络的结构示意图。具体实施方式下面结合附图对本专利技术的技术方案作进一步说明。参阅图1,其为本专利技术提供的多卡宝号码识别方法的流程示意图。步骤1,获取样本中每个样本号码取样周期内的特征。本专利技术实施例中,其中特征包括与通信时间和次数有关的短期时序特征,以及与设备和地区有关的长期时序特征在具体实施中,通过对多卡宝设备原理的研究,以及对多卡宝号码的特征挖掘,发现多卡宝号码具有以下区别普通号码的特征:(1)Simbox号码本身可能几乎不发短信,也有可能为了误导检测商发一些短信;(2)Simbox号码作为被叫的次数远远小于作为主叫的次数,即更多用来拨出,较少用来接听;(3)普通号码一般呼叫中心在工作时间,呼出比较多,而Simbox号码的呼叫在24小时内分布比较均匀;(4)Simbox拨打的号码分布范围会比较广,平均与每个拨打号码的通话次数很少;(5)Simbox号码的通话时长分布与普通号码不同,普通号码的通话大部分时间为30~60s,小部分通话会出现较长时间,即平均时长较短、方差较大,而simbox号码的通话时长波动剧烈,几乎会有一半通话在5s内挂断,另外一半通话时长往往在20min以上;(6)Simbox号码会在较长的一段时间内停留在某个地区,而普通号码的地区移动较为频繁;(7)普通用户的号码一般只对应1个IMEI(手机序列号),即使是更换手持设备,那么也只是偶尔为之,Simbox为了误导检测系统,有可能会将一个号码用在多个IMEI上;(8)普通号码的每天接打次数分布较为均匀,但simbox号码可能在很长的一段时间内没有接打,某天开始突然有上百通电话;(9)一个被simbox拨打过的号码很有可能在当天被另一个simbox号码拨打。通过对上述特征进行整理,主要可将特征归为如下3类:1.号码一天内的统计特征:指第(1)~(5)条特征,该类特征为号码可以以天为周期进行统计的特征,包括当天的主叫次数、被叫次数、发短信次数、收短信次数、通话时长分布、通话时间分布等;2.号码一段时间内的统计特征:指第6~8条特征,该类特征为号码必须以一段时间,如周、月等为周期进行统计的特征,包括一段时间内号码出现的地区数量、关联的IMEI数量、每天通信特征(指第1类特征)的波动情况等;3.号码之间的通联特征:指第9条特征,该类特征为号码之间的关联信息,需要考虑号码间的通信情况;根据以上分类,统计样本号码的每日时序特征,共总结了42条每日时序特征,具体如下所示:本文档来自技高网...

【技术保护点】
1.一种多卡宝号码识别方法,其特征在于,包括:/n获取样本中每个样本号码取样周期内的特征,其中特征包括与通信时间和次数有关的短期时序特征,以及与设备和地区有关的长期时序特征;/n将短期时序特征和长期时序特征进行拼接获得相应的特征矩阵;/n将存在通联关系的样本号码特征矩阵输入图注意力网络,输入号码的特征更新为与输入号码通联的号码特征的加权和;其中通联关系指多个样本号码与同一号码存在通信关系;/n将样本号码的特征输入transformer模型,将号码所有日期的特征进行融合后输出,再经过全连接层输出结果,确定样本号码是否为多卡宝号码。/n

【技术特征摘要】
1.一种多卡宝号码识别方法,其特征在于,包括:
获取样本中每个样本号码取样周期内的特征,其中特征包括与通信时间和次数有关的短期时序特征,以及与设备和地区有关的长期时序特征;
将短期时序特征和长期时序特征进行拼接获得相应的特征矩阵;
将存在通联关系的样本号码特征矩阵输入图注意力网络,输入号码的特征更新为与输入号码通联的号码特征的加权和;其中通联关系指多个样本号码与同一号码存在通信关系;
将样本号码的特征输入transformer模型,将号码所有日期的特征进行融合后输出,再经过全连接层输出结果,确定样本号码是否为多卡宝号码。


2.根据权利要求1所述的多卡宝号码识别方法,其特征在于,所述将短期时序特征和长期时序特征进行拼接获得相应的特征矩阵,包括:
将长期时序特征按照取样周期内短期时序的数量进行复制,与短期时序特征拼接。


3.根据权利要求2所述的多卡宝号码识别方法,其特征在于,所述输入号码的特征更新为与输入号码通联的号码特征的加权和,包括:
采用以下公式计算更新后的号码i的特征hi':
hi'=σ(∑i,j∈gaijWhj),
其中,aij=softmax(eij),hi和hj分别为样本号码i和j的特征矩阵,样本号码i和j之间存在通联关系,g表示存在通联关系的号码,σ表示sigmoid函数,W表示训练参数。


4.根据权利要求3所述的多卡宝号码识别方法,其特征在于,所述将号码所有日期的特征进行融合后输出,包括:
采用以下公式计算特征融合后的输出fi’:
fi'=∑j=1,2,3,4,5,6,7bijW'fj,
其中,W'表示训练参数,fi表示样本号码第i天的特征。


5.根据权利要求4所述的多卡宝号码识别方法,其特征在于,所述再经过全连接层输出结果,确定样本号码是否为多卡宝号码,包括:
全连接层输出1×1的结果,若结果不小于0,则判断对应的样本号码是多卡宝号码;若结果小于0,则判断对应的样本号码不是多卡宝号码。


6...

【专利技术属性】
技术研发人员:王子斌鹿林龚鸥波
申请(专利权)人:南京中新赛克科技有限责任公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1