一种诈骗电话语音自动标注系统及方法技术方案

技术编号:20626009 阅读:47 留言:0更新日期:2019-03-20 16:02
本发明专利技术公开一种诈骗电话语音自动标注系统,包括基础维度标注模块、声纹标注模块、连续语音识别标注模块,所述基础维度标注模块的输出端分别与所述声纹标注模块的输入端、所述连续语音识别标注模块的输入端相连接。本发明专利技术还提出一种诈骗电话语音自动标注方法,具体包括如下步骤:基础维度标注步骤;连续语音识别步骤;声纹标注步骤。本发明专利技术通过智能语音技术实现对输入语音数据进行自动处理,实现语音数据的自动分析识别,并进行标签预标注工作,再结合人工确认,进行目标数据维度标签的有效标注管理,有效地利用通话语音数据,优化智能语音技术在电话诈骗场景下的应用及效果,同时保证数据在标注过程中的脱密及加密传输。

An Automatic Speech Marking System and Method for Fraudulent Telephone

The invention discloses an automatic voice marking system for fraudulent telephone, which comprises a basic dimension marking module, a voiceprint marking module and a continuous speech recognition marking module. The output end of the basic dimension marking module is respectively connected with the input end of the voiceprint marking module and the input end of the continuous speech recognition marking module. The invention also proposes an automatic voice annotation method for fraud telephone, which includes the following steps: basic dimension annotation step; continuous speech recognition step; voiceprint annotation step. The invention realizes automatic processing of input voice data through intelligent voice technology, realizes automatic analysis and recognition of voice data, carries out label pre-labeling, combines manual confirmation, carries out effective labeling management of dimension labels of target data, effectively utilizes voice data, optimizes the application and effect of intelligent voice technology in the scene of telephone fraud, and ensures at the same time. The decryption and encrypted transmission of authentication data in the labeling process.

【技术实现步骤摘要】
一种诈骗电话语音自动标注系统及方法
本专利技术涉及一种诈骗电话语音自动标注系统及方法,属于诈骗预警

技术介绍
电话诈骗作为非接触式犯罪,具备高度灵活性、变化性、对抗性,单靠单一固定的技术思路难以应对复杂的诈骗手法的形式变化,所以对抗电信诈骗活动亟需利用人工智能技术突破现有瓶颈,深度挖掘各种类型诈骗模式,形成诈骗模式的快速发现预警能力,实现对诈骗形式的全面发现,支撑诈骗电话管控模式升级,提升诈骗电话管控能力。目前国内电信诈骗预警防范主要有基于信令数据、基于录音模板匹配的诈骗电话预警和基于智能语音技术的自然人诈骗电话预警等技术路线。其中基于信令数据预警技术主要依赖通话数据的话单信息,通过对话单数据的分析,进行通话行为异常通话的预警输出。基于录音模板匹配的诈骗电话预警和基于智能语音技术的自然人诈骗电话预警主要基于通话语音数据,通过对通话语音数据的分析处理,实现合成音有害电话以及自然人有害电话的快速预警发现。分析当前诈骗电话的通话行为特征,结合现有诈骗电话预警识别技术,为了有效的提升电信网络中诈骗电话的预警能力,需提供足量的实际诈骗电话数据,通过对这些数据的标注,为智能语音技术提供训练模型所需的多维度属性标签。但是,当前还没有规范化的数据标注体系用以指导标注工作,例如,存在标签维度不明确、覆盖不全,无敏感脱密加密手段、自动化标注程度低、标注结果缺乏有效核验方式等问题。因此,针对这些问题,亟需一套规范化的数据标注方法来指导数据标注工作,从而有效提升此类业务相关技术的模型训练和迭代优化能力,助力打击电信诈骗业务的更好发展。
技术实现思路
为了有效地利用通话语音数据,优化智能语音技术在电话诈骗场景下的应用及效果,同时保证数据在标注过程中的脱密及加密传输,本专利技术提出一种诈骗电话语音自动标注系统及方法,主要研究语音语料的精细化标注,同时研究语料的自动标注技术,最终通过标注系统的搭建,实现数据标签维度的标注和数据管理工作。为解决上述技术问题,本专利技术提供一种诈骗电话语音自动标注系统,其特征在于,包括基础维度标注模块、声纹标注模块、连续语音识别标注模块,所述基础维度标注模块的输出端分别与所述声纹标注模块的输入端、所述连续语音识别标注模块的输入端相连接。作为一种较佳的实施例,所述基础维度标注模块包括基础维度语音预处理模块、语种识别模块、基础维度假音识别模块、男女声识别模块,所述基础维度语音预处理模块与所述语种识别模块相连接,所述语种识别模块与所述基础维度假音识别模块相连接,所述基础维度假音识别模块与所述男女声识别模块相连接。作为一种较佳的实施例,所述基础维度语音预处理模块用于将针对自然语音识别分析、诈骗文本发现和语音内容深度分析的应用需求,提供电话信道语音数据中的话音活动检测、彩铃检测、无效音检测和有效语音检测功能;所述语种识别模块用于通过提取通话语音的核心特征,并进行模型比对以及得分判决,以提供通话语音的语种识别服务;所述基础维度假音识别模块用于对合成音模板数据进行快速精准识别;所述男女声识别模块用于根据对诈骗电话特征的分析,同步使用男女声识别技术,根据男声和女声由于生理发音器官的不同而引起的频谱差异,来对语音发声者进行性别判断。作为一种较佳的实施例,所述连续语音识别标注模块包括连续语音预处理模块、连续语音识别模块,所述连续语音预处理模块的输出端与所述连续语音识别模块的输入端相连接;所述连续语音预处理模块用来接收输入目标语音后,将根据语音中的能量分布,进行语音片段的切分,作为后续输入所述连续语音识别模块处理的数据集合;所述连续语音识别模块用来提供底层的连续语音识别引擎,将输入的每条语音片段的内容进行有效处理并输出对应的文本内容。作为一种较佳的实施例,所述声纹标注模块包括声纹语音预处理模块、声纹聚类模块、声纹假音识别模块,所述声纹语音预处理模块的输出端与所述声纹聚类模块的输入端相连接,所述声纹聚类模块的输出端与所述声纹假音识别模块的输入端相连接;所述声纹语音预处理模块的输入端输入被所述基础维度标注模块确认为诈骗语音的语音数据;所述声纹语音预处理模块用来在输入诈骗语音后,引擎将根据所述诈骗语音所含的说话人信息,进行说话人分离,并将进行无效语音的过滤并对有效语音内容进行语音增强;所述声纹假音识别模块用以对识别出来的每一个说话人语音片段进行是否合成音判断,便于快速对合成音数据以及说话人语音进行有效区分。作为一种较佳的实施例,所述声纹聚类模块包括有效性检测模块、声纹自动注册模块、声纹同一性比较模块,所述有效性检测模块用来从备选数据中挑选语音长度符合要求的语音数据,进一步通过去铃音、话音检出、话音质量检测技术从备选语音中筛选出符合自动注册标准的语音数据;所述声纹自动注册模块用来对通过有效性检测的语音数据采用自动标注技术完成当前数据的对应声纹注册;所述声纹同一性比较模块用来将最新注册的声纹与已注册的历史声纹库进行比较,如果相似度大于阈值,则认为历史声纹库中当前声纹没有变化,采用新注册声纹更新原有声纹特征;否则,进行声纹变更检测。本专利技术还提出一种诈骗电话语音自动标注方法,具体包括如下步骤:步骤SS1:基础维度标注步骤;步骤SS2:连续语音识别步骤;步骤SS3:声纹标注步骤。作为一种较佳的实施例,所述基础维度标注步骤具体包括:步骤SS11:基础维度语音预处理步骤,具体包括:将针对自然语音识别分析、诈骗文本发现和语音内容深度分析的应用需求,提供电话信道语音数据中的话音活动检测、彩铃检测、无效音检测和有效语音检测功能,确保后续标注处理的数据中无该类无效数据,提高数据利用率;步骤SS12:语种识别步骤,具体包括:通过提取通话语音的核心特征,并进行模型比对以及得分判决,以提供通话语音的语种识别服务,语种识别往往作为语音识别和其他相关应用的一个前端处理技术。语种识别引擎,可识别所使用的是何语种,例如英语、法语、德语等;或是哪种民族语言,如汉、藏、维、蒙等;步骤SS13:基础维度假音识别步骤,具体包括:对合成音模板数据进行快速精准识别;步骤SS14:男女声识别步骤,具体包括:在电话诈骗场景中,存在大量通过有害合成音模板进行群呼的现象,根据对诈骗电话特征的分析,同步使用男女声识别技术,根据男声和女声由于生理发音器官的不同而引起的频谱差异,来对语音发声者进行性别判断。作为一种较佳的实施例,在诈骗电话的预警技术中,意图理解作为核心技术路线之一,能够实现同类型套路诈骗电话的快速精准预警,而意图理解技术应用的基础,便是转写内容,意图理解主要通过对转写内容主题内容的分析,进行诈骗电话的预警工作,因此本专利技术采用的所述连续语音识别步骤具体包括:步骤SS21:连续语音预处理步骤,具体包括:接收输入目标语音后,将根据语音中的能量分布,进行语音片段的切分,作为后续输入所述连续语音识别模块处理的数据集合;步骤SS22:连续语音识别步骤,具体包括:在标注转写内容时,完全依靠人工去标,其效率和准确率都将无法保证,为了有效提高标注效率和准确率,提供底层的连续语音识别引擎,将输入的每条语音片段的内容进行有效处理并输出对应的文本内容。作为一种较佳的实施例,在电话诈骗场景下,诈骗分子为了不暴露自己的身份,通常会通过持续换号、隐藏号码的方式,隐藏自己的身份。针对这一特性,可采本文档来自技高网...

【技术保护点】
1.一种诈骗电话语音自动标注系统,其特征在于,包括基础维度标注模块、声纹标注模块、连续语音识别标注模块,所述基础维度标注模块的输出端分别与所述声纹标注模块的输入端、所述连续语音识别标注模块的输入端相连接。

【技术特征摘要】
1.一种诈骗电话语音自动标注系统,其特征在于,包括基础维度标注模块、声纹标注模块、连续语音识别标注模块,所述基础维度标注模块的输出端分别与所述声纹标注模块的输入端、所述连续语音识别标注模块的输入端相连接。2.根据权利要求1所述的一种诈骗电话语音自动标注系统,其特征在于,所述基础维度标注模块包括基础维度语音预处理模块、语种识别模块、基础维度假音识别模块、男女声识别模块,所述基础维度语音预处理模块与所述语种识别模块相连接,所述语种识别模块与所述基础维度假音识别模块相连接,所述基础维度假音识别模块与所述男女声识别模块相连接。3.根据权利要求2所述的一种诈骗电话语音自动标注系统,其特征在于,所述基础维度语音预处理模块用于将针对自然语音识别分析、诈骗文本发现和语音内容深度分析的应用需求,提供电话信道语音数据中的话音活动检测、彩铃检测、无效音检测和有效语音检测功能;所述语种识别模块用于通过提取通话语音的核心特征,并进行模型比对以及得分判决,以提供通话语音的语种识别服务;所述基础维度假音识别模块用于对合成音模板数据进行快速精准识别;所述男女声识别模块用于根据对诈骗电话特征的分析,同步使用男女声识别技术,根据男声和女声由于生理发音器官的不同而引起的频谱差异,来对语音发声者进行性别判断。4.根据权利要求1所述的一种诈骗电话语音自动标注系统,其特征在于,所述连续语音识别标注模块包括连续语音预处理模块、连续语音识别模块,所述连续语音预处理模块的输出端与所述连续语音识别模块的输入端相连接;所述连续语音预处理模块用来接收输入目标语音后,将根据语音中的能量分布,进行语音片段的切分,作为后续输入所述连续语音识别模块处理的数据集合;所述连续语音识别模块用来提供底层的连续语音识别引擎,将输入的每条语音片段的内容进行有效处理并输出对应的文本内容。5.根据权利要求1所述的一种诈骗电话语音自动标注系统,其特征在于,所述声纹语音预处理模块、声纹聚类模块、声纹假音识别模块,所述声纹语音预处理模块的输出端与所述声纹聚类模块的输入端相连接,所述声纹聚类模块的输出端与所述声纹假音识别模块的输入端相连接;所述声纹语音预处理模块的输入端输入被所述基础维度标注模块确认为诈骗语音的语音数据;所述声纹语音预处理模块用来在输入诈骗语音后,引擎将根据所述诈骗语音所含的说话人信息,进行说话人分离,并将进行无效语音的过滤并对有效语音内容进行语音增强;所述声纹假音识别模块用以对识别出来的每一个说话人语音片段进行是否合成音判断,便于快速对合成音数据以及说话人语音进行有效区分。6.根据权利要求5所述的一种诈骗电话语音自动标注系统,其特征在于,所述声纹聚类模块包括有效性检测模块、声纹自动注册模块、声纹同一性比较模块,所述有效性检测模块用来从备选数据中挑选语音长度符合要求的语音数据,进一步通过去铃音、话音检出、话音质量检测技术从备选语音中筛选出符合自动注册标准的语音数据;所述...

【专利技术属性】
技术研发人员:张震李鹏黄远高圣翔杜裕琴倪江帆
申请(专利权)人:国家计算机网络与信息安全管理中心讯飞智元信息科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1