一种基于增量采集电话录音完善声纹库的方法技术

技术编号:30363296 阅读:17 留言:0更新日期:2021-10-16 17:24
本发明专利技术公开了一种基于增量采集电话录音完善声纹库的方法,包括:采集调度通话录音,根据预建立的声纹库对通话录音进行声纹识别;若识别失败,则将调度通话录音转化为调度文本,采用自然语言处理技术,提取文本中操作员说出的名字并进行识别;若正确识别出操作员的名字,则根据通话电话号码及操作员名字查询数据库中操作员信息,并自动进行声纹注册;若无法正确识别出操作员名字,则保存调度录音,在后台管理中由管理员进行定期审核,若审核成功则将调度录音注册到声纹库,审核失败则删除该记录。本发明专利技术解决了声纹采集难,跨信道跨设备声纹识别不准确的问题,为声纹库的建设和丰富,以及声纹识别准确率的提高提供了良好的基础。以及声纹识别准确率的提高提供了良好的基础。以及声纹识别准确率的提高提供了良好的基础。

【技术实现步骤摘要】
一种基于增量采集电话录音完善声纹库的方法


[0001]本专利技术涉及电网调度的
,尤其涉及一种基于增量采集电话录音完善声纹库的方法。

技术介绍

[0002]目前电网调度系统进行调度用语规范性验证主要是通过行政管理手段进行把关,例如,调度操作票填写的“五核实”、“三审签字”以及通话核实等,现在通话核实的过程中,值班调度员电话向操作员核实身份,并要求其逐条复述指令内容,确保操作员对指令的接受和理解精准无误。
[0003]然而现有的管理方式下,对人员身份的核实仍存在盲点,通话确认身份的方式往往缺乏可信度,存在无资质操作的隐患;因此调度辅助机器人引入了声纹识别的方案辅助值班调度员进行身份核实。但是目前采取的声纹库建设方式为主动收集,即需要统一协调用户以拨打电话的方式进行电话录音,然后收集声纹信息。但是在执行过程中发现供电局下属机构、场站较多,人员较为复杂且变动大,不易协调、声纹受设备信道影响等问题,为声纹库的建设带来了很大的困难。

技术实现思路

[0004]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0005]鉴于上述现有存在的问题,提出了本专利技术。
[0006]因此,本专利技术解决的技术问题是:目前采取的声纹库建设方式为主动收集,即需要统一协调用户以拨打电话的方式进行电话录音,然后收集声纹信息,在执行过程中发现供电局下属机构、场站较多,人员较为复杂且变动大,不易协调、声纹受设备信道影响等问题,为声纹库的建设带来了很大的困难。。
[0007]为解决上述技术问题,本专利技术提供如下技术方案:采集调度通话录音,根据预建立的声纹库对所述通话录音进行声纹识别;若识别失败,则将所述调度通话录音转化为调度文本,采用自然语言处理技术,提取文本中操作员说出的名字并进行识别;若正确识别出操作员的名字,则根据通话电话号码及操作员名字查询数据库中操作员信息,并自动进行声纹注册;若无法正确识别出操作员名字,则保存调度录音,在后台管理中由管理员进行定期审核,若审核成功则将所述调度录音注册到声纹库,审核失败则删除该记录。
[0008]作为本专利技术所述的基于增量采集电话录音完善声纹库的方法的一种优选方案,其中:所述声纹识别过程包括,对所述调度通话录音进行加权滤波处理;将加权滤波处理过调度通话录音数据转换到频域,在频域对调度通话录音数据进行频谱相减和相位合成,并将频谱相减和相位合成后的调度通话录音数据转换到时域;对频谱相减和相位合成后的调度通话录音数据进行逆感知加权滤波处理,得到去噪后的调度通话录音数据;将去噪后的调
度通话录音数据生成声谱图,并将所述声谱图与所述声纹库里的数据进行识别比对。
[0009]作为本专利技术所述的基于增量采集电话录音完善声纹库的方法的一种优选方案,其中:将所述调度通话录音转化为调度文本包括,利用Python语言进行可执行程序的编写,编写一个后台无感运行的托盘程序,基于所述程序将所述调度通话录音转化为调度文本。
[0010]作为本专利技术所述的基于增量采集电话录音完善声纹库的方法的一种优选方案,其中:所述采用自然语言处理技术,提取文本中操作员说出的名字并进行识别包括,利用图像处理技术对所述调度文本进行文本图像的采集;基于目标检测算法提取出所采集的文本图像中的名字并进行识别。
[0011]作为本专利技术所述的基于增量采集电话录音完善声纹库的方法的一种优选方案,其中:所述目标检测算法的损失函数包括,
[0012]方差损失函数:
[0013][0014]距离损失函数:
[0015]L(I
k
,J
z
)=min(W
dist
×
|y
k

y
z
|

θ,0)
[0016]其中,M表示常数,y
k
表示k特征的常规系数,I
k
表示k特征的点差值,x
k
表示k特征的损失系数,W
Scalek
表示方差值,表示聚类参数,J
z
表示z特征的点差值,y
z
表示z特征的损失系数,θ表示距离参数。
[0017]作为本专利技术所述的基于增量采集电话录音完善声纹库的方法的一种优选方案,其中:所述识别成功的标准包括,
[0018]L(I
k
,J
z
)∈[0.01,0.1][0019]即z特征和k特征的点差值在0.01

0.1时,为正确识别出操作员的名字。
[0020]作为本专利技术所述的基于增量采集电话录音完善声纹库的方法的一种优选方案,其中:所述声纹注册包括,当正确识别出操作员的名字,检测注册文本录音的语速以及截幅,将所述语速以及截幅定义为评分因素,通过所述评分因素确定所述注册文本录音的综合评分;当所述综合评分达到预设评分阈值时,将采集的通话电话号码及操作员名字查询数据库中的操作员信息存储至所述声纹库,对所述注册文本录音进行声纹注册。
[0021]作为本专利技术所述的基于增量采集电话录音完善声纹库的方法的一种优选方案,其中:所述在后台管理中由管理员进行定期审核的审核期限为3个工作日之内。
[0022]本专利技术的有益效果:本专利技术解决了声纹采集难,跨信道跨设备声纹识别不准确的问题,为声纹库的建设和丰富,以及声纹识别准确率的提高提供了良好的基础。
附图说明
[0023]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
[0024]图1为本专利技术一个实施例提供的一种基于增量采集电话录音完善声纹库的方法的
基本流程示意图;
[0025]图2为本专利技术一个实施例提供的一种基于增量采集电话录音完善声纹库的方法的声纹识别失败示意图;
[0026]图3为本专利技术一个实施例提供的一种基于增量采集电话录音完善声纹库的方法的管理员审核声纹信息示意图。
具体实施方式
[0027]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本专利技术的具体实施方式做详细的说明,显然所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术的保护的范围。
[0028]在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是本专利技术还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似推广,因此本专利技术不受下面公开的具体实施例的限制。...

【技术保护点】

【技术特征摘要】
1.一种基于增量采集电话录音完善声纹库的方法,其特性在于,包括:采集调度通话录音,根据预建立的声纹库对所述通话录音进行声纹识别;若识别失败,则将所述调度通话录音转化为调度文本,采用自然语言处理技术,提取文本中操作员说出的名字并进行识别;若正确识别出操作员的名字,则根据通话电话号码及操作员名字查询数据库中操作员信息,并自动进行声纹注册;若无法正确识别出操作员名字,则保存调度录音,在后台管理中由管理员进行定期审核,若审核成功则将所述调度录音注册到声纹库,审核失败则删除该记录。2.如权利要求1所述的基于增量采集电话录音完善声纹库的方法,其特征在于:所述声纹识别过程包括,对所述调度通话录音进行加权滤波处理;将加权滤波处理过调度通话录音数据转换到频域,在频域对调度通话录音数据进行频谱相减和相位合成,并将频谱相减和相位合成后的调度通话录音数据转换到时域;对频谱相减和相位合成后的调度通话录音数据进行逆感知加权滤波处理,得到去噪后的调度通话录音数据;将去噪后的调度通话录音数据生成声谱图,并将所述声谱图与所述声纹库里的数据进行识别比对。3.如权利要求1所述的基于增量采集电话录音完善声纹库的方法,其特征在于:将所述调度通话录音转化为调度文本包括,利用Python语言进行可执行程序的编写,编写一个后台无感运行的托盘程序,基于所述程序将所述调度通话录音转化为调度文本。4.如权利要求2所述的基于增量采集电话录音完善声纹库的方法,其特征在于:所述采用自然语言处理技术,提取文本中操作员说出的名字并进行识别包括,利用图像处理技术对所述调度文本进行文本图像的采集...

【专利技术属性】
技术研发人员:冯义戴雯菊黄宇高适苏畅吴俊杰林大智王瑶罗宇
申请(专利权)人:贵州电网有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1