外呼系统的接通时刻点判定方法、装置、设备和存储介质制造方法及图纸

技术编号:33969286 阅读:53 留言:0更新日期:2022-06-30 02:04
本发明专利技术公开了一种智能外呼系统接通时刻点判定方法和装置、存储介质,属于AI电话外呼领域。实时获取外呼机器人在外呼过程中的音频数据,若存在声音信号,则提取第一音频特征信号,判断属于人说话声或环境背景音的概率;对第一音频特征信号进行二次特征提取,取top n特征与上述概率拼接后判断属于人说话声或环境背景音的概率,若概率大于阈值,则将当前时刻点作为接通时刻点,向外呼机器人返回接通信号,结束本次外呼的接通时刻点判定。本发明专利技术采用深度学习模型和传统机器学习模型相结合的方案,减少对音频领域专家知识的依赖,无需调用asr技术获取语音转文本的中间结果,满足在实时性要求极强的二次外呼机器人场景中的应用。用。用。

【技术实现步骤摘要】
外呼系统的接通时刻点判定方法、装置、设备和存储介质


[0001]本专利技术涉及AI电话外呼领域,尤其涉及一种智能外呼系统的接通时刻点判定方法、装置、设备和存储介质。

技术介绍

[0002]当前对个人隐私保护的重视程度越来越高,特别是个人隐私电话号码的保护,目前应用于多领域的智能外呼机器人在进行电话外呼时,都会采用虚拟分机号二次外呼的形式。在正常电话拨打时,当接收方接通时刻,电信、移动、联通等运营商会返回一个已接通信号,告知拨打方所拨打的电话已接通;不同于正常的电话拨打,在二次外呼场景下,外呼机器人首先接通运营商,再由运营商通过虚拟分机号进行二次外呼,当接收方在接通时刻,运营商已经不会再返回已接通信号,由于AI外呼机器人不能像人一样可以自己判断接收方是否接通,外呼机器人就无法知道接收方何时将电话接通,因此,AI电话外呼系统需要设置接通时刻点判定方法来生成一个已接通信号来告知外呼机器人。
[0003]对于二次外呼场景,在接通时刻前会产生以下状态的音频信号:1.静音状态,2.嘟嘟声状态,3.彩铃状态,4.机器提示音状态。接通时刻后会产生以下状态的音频信号:1.人说话声,2.环境背景音。AI外呼机器人正确的判定出二次外呼接通时刻点,可以极大的提高通话体验,减少接收方已接通后的等待回复时间。
[0004]传统技术通常在二次外呼后实时监听音频信号,利用asr(语音转文本)技术将音频信号转换为文本,通过对文本数据进行大量的规则判定来识别接通时刻,例如,匹配到第一个喂、你好等文本信号即认为此刻已接通;或者在上述文本数据的基础上融入音频特征,所述的音频特征是通过人工从音频数据中抽取得到的,将文本数据和音频特征合并后训练一个二分类的机器学习模型,实现接通时刻点的自动判别。上述方法存在以下问题:(1)规则判定法需要将已接通的话术枚举的非常全面,才可能不会遗漏重要规则,这在不同场景下的应用是难以实现的,甚至会对关机状态等设定的自动回复语音进行误判。
[0005](2)语音转文本的过程需要调用asr技术,延迟性长,通话体验滞后,成本高。
[0006](3)人工抽取得到的音频特征之间是离散信号,缺少对各个特征进行交互的过程,未充分利用音频特征;人工抽取音频特征严重依赖专家知识,难以适应不同的应用场景。

技术实现思路

[0007]为了克服传统的智能外呼系统接通时刻点判定方法存在的延迟时间长、误判率高、成本高的问题,本专利技术提出了一种外呼系统的接通时刻点判定方法、装置、设备和存储介质,采用深度学习模型和传统机器学习模型相结合的方案,减少对音频领域专家知识的依赖,尤其是不需要调用asr技术获取语音转文本的中间结果,满足在实时性要求极强的二次外呼机器人场景中。
[0008]为了实现上述目的,本专利技术采用的技术方案如下:
第一个方面,本专利技术提供了一种外呼系统的接通时刻点判定方法,包括以下步骤:步骤1,实时获取外呼机器人在外呼过程中的音频数据,对所述音频数据进行过滤,判断是否有声音信号,若无,则持续监听音频数据;若有,则从音频数据中提取第一音频特征信号;步骤2,利用第一机器学习模型判断第一音频特征信号属于人说话声或环境背景音的概率;步骤3,利用Yamnet模型对步骤1所述的第一音频特征信号进行二次特征提取,取top n 特征,并将步骤2得到的属于人说话声或环境背景音的概率与top n 特征拼接,得到第二音频特征信号;步骤4,利用第二机器学习模型判断第二音频特征信号属于人说话声或环境背景音的概率,若概率大于阈值,则将当前时刻点作为接通时刻点,向外呼机器人返回接通信号,结束本次外呼的接通时刻点判定,停止监听音频数据;否则,返回步骤1。
[0009]第二个方面,本专利技术提供了一种外呼系统的接通时刻点判定装置,包括:外呼机器人,其用于拨打接收方的虚拟分机号,由运营商接通后对接收方的真实手机号进行二次外呼;音频片段窗口模块,其用于持续监听音频数据,每m毫秒采集一个音频片段并将其存储在测试列表中;测试列表模块,其用于存储最新监听到的音频数据,初始为空;声音信号判断模块,其用于对音频数据进行过滤,判断是否有声音信号,若是,则从音频数据中提取第一音频特征信号并传输至第一机器学习模型模块和Yamnet模型模块,若否,则不执行下一步动作;第一机器学习模型模块,其用于判断接收到的第一音频特征信号属于人说话声或环境背景音的概率,并将其传输至Yamnet模型模块;Yamnet模型模块,其用于对接收到的第一音频特征信号进行二次特征提取,取top n 特征,并将接收到的属于人说话声或环境背景音的概率拼接到top n 特征后,得到第二音频特征信号,并将其传输至第二机器学习模型模块;第二机器学习模型模块,其用于判断第二音频特征信号属于人说话声或环境背景音的概率,若概率大于阈值,则将当前时刻点作为接通时刻点,向外呼机器人返回接通信号,结束本次外呼的接通时刻点判定,同时向音频片段窗口模块发出停止监听音频数据的信号。
[0010]第三个方面,本专利技术提供了一种电子设备,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现上述的外呼系统的接通时刻点判定方法。
[0011]第四个方面,本专利技术提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述的外呼系统的接通时刻点判定方法。
[0012]与现有技术相比,本专利技术具备的有益效果是:(1)本专利技术采用了深度学习模型和传统机器学习模型相结合的技术方案,减少了对音频领域专家知识的依赖,成本低。
[0013](2)本专利技术由于是直接对音频信号数据进行是否已接通判定,不需要asr(语音转文本)技术的中间结果,在实时性要求极强的二次外呼机器人场景中,可以极大提高外呼机器人的反应速度,提升通话体验。
[0014](3)本专利技术不涉及对文本规则的判断方法,与现有的规则方法对比,可以极大的减少误判率,尤其是在语言日益更新的情况下,本专利技术不需要对规则进行更新,适用范围广。
附图说明
[0015]图1是根据一示例性实施例示出的二次外呼机器人场景的示意图;图2是根据一示例性实施例示出的外呼系统的接通时刻点判定方法的流程示意图;图3是根据一示例性实施例示出的外呼系统的接通时刻点判定装置的结构图;图4是根据一示例性实施例示出的用于实现外呼系统的接通时刻点判定方法的电子设备终端结构图。
具体实施方式
[0016]下面结合附图和实施例对本专利技术进行进一步说明。附图仅为本专利技术的示意性图解,附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0017]附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0018]除另作定义外,本申请本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种外呼系统的接通时刻点判定方法,其特征在于,包括以下步骤:步骤1,实时获取外呼机器人在外呼过程中的音频数据,对所述音频数据进行过滤,判断是否有声音信号,若无,则持续监听音频数据;若有,则从音频数据中提取第一音频特征信号;步骤2,利用第一机器学习模型判断第一音频特征信号属于人说话声或环境背景音的概率;步骤3,利用Yamnet模型对步骤1所述的第一音频特征信号进行二次特征提取,取top n 特征,并将步骤2得到的属于人说话声或环境背景音的概率与top n 特征拼接,得到第二音频特征信号;步骤4,利用第二机器学习模型判断第二音频特征信号属于人说话声或环境背景音的概率,若概率大于阈值,则将当前时刻点作为接通时刻点,向外呼机器人返回接通信号,结束本次外呼的接通时刻点判定,停止监听音频数据;否则,返回步骤1。2.根据权利要求1所述的外呼系统的接通时刻点判定方法,其特征在于,所述的实时获取外呼机器人在外呼过程中的音频数据时,每m毫秒采集一个音频片段,将获取到的音频片段存储在测试列表中,当测试列表的长度满足预设长度要求时,将测试列表中的音频数据全部取出并进行后续处理,同时持续监听音频片段,将新的音频片段存储在测试列表中。3.根据权利要求2所述的外呼系统的接通时刻点判定方法,其特征在于,10≤m≤30。4.根据权利要求1所述的外呼系统的接通时刻点判定方法,其特征在于,所述的步骤1中通过音频数据的能量值判断是否有声音信号,所述的声音信号包括人说话声和背景音。5.根据权利要求1所述的外呼系统的接通时刻点判定方法,其特征在于,所述的步骤1中采用wav2vec预训练模型从音频数据中提取第一音频特征信号。6.根据权利要求1所述的外呼系统的接通时刻点判定方法,其特征在于,利用Yamnet模型对步骤1所述的第一音频特征信号进行二次特征提取时,获得一个521维度的特征向量,保留top 100 特征用于后续处理...

【专利技术属性】
技术研发人员:王磊
申请(专利权)人:杭州一知智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1