检测电话号码准确率的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37801227 阅读:17 留言:0更新日期:2023-06-09 09:31
本发明专利技术涉及一种检测电话号码准确率的方法、装置、电子设备及存储介质。检测电话号码准确率方法包括步骤:S1、样本抽取,读取电话号码对应的电话号码信息作为待核验样本;S2、样本核验,采用自动电话拨测辅助以人工的方式完成对抽取出的样本核验;S3、样本队列,将已成功校验的样本随机抽样使用先进先出的队列结构存储到电话号码信息库中;S4、准确率计算,准确率计算包括单维准确率计算和多维准确率计算,计算出2倍标准差的置信度95%范围内的准确率区间值,并动态输出计算结果,完成动态检测电话号码信息准确率的过程;S5、抽样迭代。依据本发明专利技术的检测电话号码准确率的方法,能够连续动态检测电话号码准确率,来实时反映其准确率质量的最新状态。的最新状态。的最新状态。

【技术实现步骤摘要】
检测电话号码准确率的方法、装置、电子设备及存储介质


[0001]本专利技术涉及通信领域,具体而言,涉及一种基于动态小样本实现高置信度检测电话号码准确率的方法、装置、电子设备及存储介质。

技术介绍

[0002]电话用户在运营商注册开通电话号码时,同时登记了相应的用户信息,这些信息组合起来构成了一种运营商特有的重要数据资产,即电话号码信息。
[0003]电话号码信息按登记用户的不同可以分为两类:企业用户登记的是企事业单位信息,包括不限于单位名称、地址,电话,行业分类等,也称作“黄页”(Yellowpages);个人用户登记的是个人信息,包括不限于姓名,地址等,也称作“白页”(Whitepages)。
[0004]电话号码信息在互联网时代的广泛应用构成了作为社会诚信体系信息基础设施的重要组成部分。举例而言,当商业银行在线发行信用卡或网站有新用户注册时,为核验用户真实身份银行或网站就会查询运营商的白页信息。类似的利用电话号码信息开展的身份核验服务广泛应用于诸多行业对业务的风险评估模型中。比如在与人民群众生活密切相关的防骚扰防诈骗领域,当用户在接听来电时获得的来电识别提示,就用到了运营商的黄页信息。这些都是最常见的基于电话号码信息的应用场景。
[0005]电话号码信息作为一种基础信息,已经被广泛结合应用于各行业的包括风险评估在内的各种计算模型中。所以对它本身的信息准确性的质量评估日益重要,这就需要有效地检测电话号码信息的准确率。
[0006]在提出本专利技术的方法之前,我们先分析传统统计电话号码准确率的方法,并指出其缺陷,以明确本专利技术方法与它们的区别。
[0007]传统的电话号码准确率计算方法有三大缺陷,分别是:数据全量统计成本高;信息人工核验效率低;无法实现连续动态地检测。
[0008]首先,全量统计问题。企事业单位的电话号码,加上存在大量电话号码虽以个人名义登记而实际用于企业对外联系和一些小微企业的情况,电话号码信息的绝对数量十分巨大,数量以亿计。传统的检测电话号码信息准确率的方法是与黄页信息(即分行业的企事业单位信息)核对结合起来进行,比如按行业或按地域(区、县、市)对企事业单位信息进行电话核对后进行电话号码信息准确率的统计。这种方法仅适合于对某行业(如医疗、文教、机械制造、银行等),或某地域电话号码信息准确率的统计。实际上是一种局部的全量的统计,成本高,耗时长,且其得出的准确率无法代表整体电话号码的准确率,置信度也无法科学度量。而且,当前随着电话号簿(黄页)被搜索引擎取代,即使这种依托于传统号簿(黄页)编辑发行而进行的局部的全量数据核对也因成本高昂而难于进行。
[0009]其次,信息的人工核验问题。运营商的电话号码信息从何而来?又是如何变更的?当用户在运营商营业厅注册电话号码时,登记的信息会经过运营商的人工证照核验流程,所以登记时的电话号码信息可以认为是准确的、权威的,这是电话号码信息最初的来源。随着时间的流逝,企业的名称会发生改变,电话的所有者和使用者也可能分离,私人电话也可
能被用于企业,企业也会合并重组甚至停业,每年有数百万计企业主体注销,这些都会导致运营商电话号码信息不准确,这是信息的变更。为了核验电话号码信息正确与否,就需要人工通过呼叫中心与用户联系进行核对,效率较低。
[0010]再次,在大数据时代,当我们把数以亿计的电话号码信息作为一个整体去评估其信息质量时,区别于传统的一年统计一次局部的准确率的方式,我们需要能够高效低成本地连续地动态地监控电话号码信息的准确率,需要一种能够连续地动态地检测其整体准确率的方法。
[0011]综上,如何科学有效且低成本地检测电话号码信息的准确率,如何通过符合电话号码信息特点的抽样方法使得对其准确率的检测结果既符合预定的置信度标准,通过实现信息核对的自动化节约人工成本,使得获得统计结果的代价最小,成为亟待解决的问题。因此,亟需针对电话号码信息不断动态更新的特点,设计有一种能够连续动态检测准确率的方法来实时反映其质量的最新状态,进而使用该准确率指标来促进这一社会诚信体系基础设施高质量发展。

技术实现思路

[0012]本专利技术要解决的技术问题是如何科学有效且低成本地检测电话号码信息的准确率,如何通过符合电话号码信息特点的抽样方法使得对其准确率的检测结果既符合预定的置信度标准。
[0013]为解决上述技术问题,根据本专利技术的一个方面,提供一种检测电话号码准确率的方法,该方法用于检测包括固定电话号码、移动电话号码、以及以电话号码为唯一标识的多字段组合的电话号码信息的准确率,多字段组合包括户名、地址、总机标志、行业分类和域名,检测电话号码准确率的方法包括如下步骤:S1、样本抽取,读取电话号码对应的电话号码信息作为待核验样本,电话号码信息具有记录到数据库中时的入库时间,采用按入库时间等距随机抽样的方法进行抽样,以保证抽样的随机性,其中,将电话号码信息的数据首先按入库时间排序,然后用总数据量除以抽样数得到抽样间隔,并在抽样间隔内随机抽取一个号码作为样本,按抽样间隔等距抽样,直到完成抽样,从而确保了样本在时间维度上的平均分布;S2、样本核验,采用自动电话拨测辅助以人工的方式完成对抽取出的样本核验,电话号码验证信息是否正确,其中,自动电话拨测以人工智能机器人的方式对电话用户进行电话核对信息,输出核验结果,以确认核验后校验数据是否与原电话号码信息一致;S3、样本队列,将已成功校验的样本随机抽样,使用先进先出的队列结构存储到电话号码信息库中,设置有效时间T和取样长度L,其中,有效时间T为距离开始计算时间t之前的T时长时间范围,取样长度L为单次抽数样本的数量,有效时间T和取样长度L为下一步做准备;S4、准确率计算,准确率计算包括单维准确率计算和多维准确率计算,设定动态计算周期时长,按照动态计算周期时长进行单维准确率计算和多维准确率计算,基于样本队列依据单维准确率计算和多维准确率计算,计算出2倍标准差的置信度95%范围内的准确率区间值,并动态输出计算结果,完成动态检测电话号码信息准确率的过程,其中,单维表示电话号码与电话号码信息中某一字段的对应关系,多维表示电话号码对应电话号码信息中多个字段的对应关系,其中,单维准确率计算用于对抽取出的某一样本准确率Ri进行判断,如该样本中户名与核验数据完全一致,则Ri=1,反之Ri=0;多维准确率计算用于对电话号码信息的每个字段
数据进行模糊比较,输出每个字段对应的各个维度一致度权重;S5、抽样迭代,按照S3步骤样本队列,以初始样本容量n完成抽样,按照S4准确率计算方法,计算抽样准确率;计算抽样的样本均值和样本方差,其中,当标准差大于经验阀值时,判断为抽样不合格,此时需要扩大样本容量,重复步骤S1至S3,直到标准差小于经验阀值0.01;当标准差小于经验阀值时,其样本均值即为电话号码信息准确率。
[0014]根据本专利技术的实施例,步骤S4中,单维准确率计算中,计算样本均值的公式可为:
[0015][0016]其中,单个样本的准确率为Ri,样本核验一致的比例为p,抽样数量为n,样本均值为标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检测电话号码准确率的方法,所述方法用于检测包括固定电话号码、移动电话号码、以及以电话号码为唯一标识的多字段组合的电话号码信息的准确率,所述多字段组合包括户名、地址、总机标志、行业分类和域名,所述检测电话号码准确率的方法包括如下步骤:S1、样本抽取,读取电话号码对应的电话号码信息作为待核验样本,电话号码信息具有记录到数据库中时的入库时间,采用按入库时间等距随机抽样的方法进行抽样,以保证抽样的随机性,其中,将电话号码信息的数据首先按入库时间排序,然后用总数据量除以抽样数得到抽样间隔,并在抽样间隔内随机抽取一个号码作为样本,按抽样间隔等距抽样,直到完成抽样,从而确保了样本在时间维度上的平均分布;S2、样本核验,采用自动电话拨测辅助以人工的方式完成对抽取出的样本核验,电话号码验证信息是否正确,其中,自动电话拨测以人工智能机器人的方式对电话用户进行电话核对信息,输出核验结果,以确认核验后校验数据是否与原电话号码信息一致;S3、样本队列,将已成功校验的样本随机抽样,使用先进先出的队列结构存储到电话号码信息库中,设置有效时间T和取样长度L,其中,所述有效时间T为距离开始计算时间t之前的T时长时间范围,取样长度L为单次抽数样本的数量,所述有效时间T和取样长度L为下一步做准备;S4、准确率计算,所述准确率计算包括单维准确率计算和多维准确率计算,设定动态计算周期时长,按照动态计算周期时长进行单维准确率计算和多维准确率计算,基于样本队列依据单维准确率计算和多维准确率计算,计算出2倍标准差的置信度95%范围内的准确率区间值,并动态输出计算结果,完成动态检测电话号码信息准确率的过程,其中,单维表示电话号码与电话号码信息中某一字段的对应关系,多维表示电话号码对应电话号码信息中多个字段的对应关系;单维准确率为电话号码对应电话号码信息中某一个字段的准确率,多维准确率为电话号码对应电话号码信息所有字段的加权平均准确率;其中,所述单维准确率计算用于对抽取出的某一样本准确率Ri进行判断,如该样本中户名与核验数据完全一致,则Ri=1,反之Ri=0;所述多维准确率计算用于对电话号码信息的每个字段数据进行模糊比较,输出每个字段对应的各个维度一致度权重;S5、抽样迭代,按照S3步骤样本队列,以初始样本容量n完成抽样,按照S4准确率计算方法,计算抽样准确率;计算抽样的样本均值和样本方差,其中,当标准差大于经验阀值时,判断为抽样不合格,此时需要扩大样本容量,重复步骤S1至S3,直到标准差小于经验阀值0.01;当标准差小于经验阀值时,其样本均值即为电话号码信息准确率。2.如权利要求1所述的方法,步骤S4中,所述单维准确率计算中,计算样本均值的公式为:其中,单个样本的准确率为Ri,样本核验一致的比例为p,抽样数量为n,样本均值为
标准差为σ,计算标准差σ的公式为:计算单维准确率区间μ的公式为:3.如权利要求1所述的方法,步骤S4中,所述多维准确率计算中进行模糊计算,包括如下步骤:S41、对多维信息中单个字段信息进行分词、去除停用词,得到训练数据;S42、输入训练数据,通过Python的Gensim包中的word2vec训练,得到单个字段信息的语料模型...

【专利技术属性】
技术研发人员:倪俊峰邹剑鸣马钰璐李洁崔秀娟张剑峰
申请(专利权)人:号百信息服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1