The invention discloses an automatic voice marking system for fraudulent telephone, which comprises a basic dimension marking module, a voiceprint marking module and a continuous speech recognition marking module. The output end of the basic dimension marking module is respectively connected with the input end of the voiceprint marking module and the input end of the continuous speech recognition marking module. The invention also proposes an automatic voice annotation method for fraud telephone, which includes the following steps: basic dimension annotation step; continuous speech recognition step; voiceprint annotation step. The invention realizes automatic processing of input voice data through intelligent voice technology, realizes automatic analysis and recognition of voice data, carries out label pre-labeling, combines manual confirmation, carries out effective labeling management of dimension labels of target data, effectively utilizes voice data, optimizes the application and effect of intelligent voice technology in the scene of telephone fraud, and ensures at the same time. The decryption and encrypted transmission of authentication data in the labeling process.
【技术实现步骤摘要】
一种诈骗电话语音自动标注系统及方法
本专利技术涉及一种诈骗电话语音自动标注系统及方法,属于诈骗预警
技术介绍
电话诈骗作为非接触式犯罪,具备高度灵活性、变化性、对抗性,单靠单一固定的技术思路难以应对复杂的诈骗手法的形式变化,所以对抗电信诈骗活动亟需利用人工智能技术突破现有瓶颈,深度挖掘各种类型诈骗模式,形成诈骗模式的快速发现预警能力,实现对诈骗形式的全面发现,支撑诈骗电话管控模式升级,提升诈骗电话管控能力。目前国内电信诈骗预警防范主要有基于信令数据、基于录音模板匹配的诈骗电话预警和基于智能语音技术的自然人诈骗电话预警等技术路线。其中基于信令数据预警技术主要依赖通话数据的话单信息,通过对话单数据的分析,进行通话行为异常通话的预警输出。基于录音模板匹配的诈骗电话预警和基于智能语音技术的自然人诈骗电话预警主要基于通话语音数据,通过对通话语音数据的分析处理,实现合成音有害电话以及自然人有害电话的快速预警发现。分析当前诈骗电话的通话行为特征,结合现有诈骗电话预警识别技术,为了有效的提升电信网络中诈骗电话的预警能力,需提供足量的实际诈骗电话数据,通过对这些数据的标注,为智能语音技术提供训练模型所需的多维度属性标签。但是,当前还没有规范化的数据标注体系用以指导标注工作,例如,存在标签维度不明确、覆盖不全,无敏感脱密加密手段、自动化标注程度低、标注结果缺乏有效核验方式等问题。因此,针对这些问题,亟需一套规范化的数据标注方法来指导数据标注工作,从而有效提升此类业务相关技术的模型训练和迭代优化能力,助力打击电信诈骗业务的更好发展。
技术实现思路
为了有效地利用通话语音数 ...
【技术保护点】
1.一种诈骗电话语音自动标注系统,其特征在于,包括基础维度标注模块、声纹标注模块、连续语音识别标注模块,所述基础维度标注模块的输出端分别与所述声纹标注模块的输入端、所述连续语音识别标注模块的输入端相连接。
【技术特征摘要】
1.一种诈骗电话语音自动标注系统,其特征在于,包括基础维度标注模块、声纹标注模块、连续语音识别标注模块,所述基础维度标注模块的输出端分别与所述声纹标注模块的输入端、所述连续语音识别标注模块的输入端相连接。2.根据权利要求1所述的一种诈骗电话语音自动标注系统,其特征在于,所述基础维度标注模块包括基础维度语音预处理模块、语种识别模块、基础维度假音识别模块、男女声识别模块,所述基础维度语音预处理模块与所述语种识别模块相连接,所述语种识别模块与所述基础维度假音识别模块相连接,所述基础维度假音识别模块与所述男女声识别模块相连接。3.根据权利要求2所述的一种诈骗电话语音自动标注系统,其特征在于,所述基础维度语音预处理模块用于将针对自然语音识别分析、诈骗文本发现和语音内容深度分析的应用需求,提供电话信道语音数据中的话音活动检测、彩铃检测、无效音检测和有效语音检测功能;所述语种识别模块用于通过提取通话语音的核心特征,并进行模型比对以及得分判决,以提供通话语音的语种识别服务;所述基础维度假音识别模块用于对合成音模板数据进行快速精准识别;所述男女声识别模块用于根据对诈骗电话特征的分析,同步使用男女声识别技术,根据男声和女声由于生理发音器官的不同而引起的频谱差异,来对语音发声者进行性别判断。4.根据权利要求1所述的一种诈骗电话语音自动标注系统,其特征在于,所述连续语音识别标注模块包括连续语音预处理模块、连续语音识别模块,所述连续语音预处理模块的输出端与所述连续语音识别模块的输入端相连接;所述连续语音预处理模块用来接收输入目标语音后,将根据语音中的能量分布,进行语音片段的切分,作为后续输入所述连续语音识别模块处理的数据集合;所述连续语音识别模块用来提供底层的连续语音识别引擎,将输入的每条语音片段的内容进行有效处理并输出对应的文本内容。5.根据权利要求1所述的一种诈骗电话语音自动标注系统,其特征在于,所述声纹语音预处理模块、声纹聚类模块、声纹假音识别模块,所述声纹语音预处理模块的输出端与所述声纹聚类模块的输入端相连接,所述声纹聚类模块的输出端与所述声纹假音识别模块的输入端相连接;所述声纹语音预处理模块的输入端输入被所述基础维度标注模块确认为诈骗语音的语音数据;所述声纹语音预处理模块用来在输入诈骗语音后,引擎将根据所述诈骗语音所含的说话人信息,进行说话人分离,并将进行无效语音的过滤并对有效语音内容进行语音增强;所述声纹假音识别模块用以对识别出来的每一个说话人语音片段进行是否合成音判断,便于快速对合成音数据以及说话人语音进行有效区分。6.根据权利要求5所述的一种诈骗电话语音自动标注系统,其特征在于,所述声纹聚类模块包括有效性检测模块、声纹自动注册模块、声纹同一性比较模块,所述有效性检测模块用来从备选数据中挑选语音长度符合要求的语音数据,进一步通过去铃音、话音检出、话音质量检测技术从备选语音中筛选出符合自动注册标准的语音数据;所述...
【专利技术属性】
技术研发人员:张震,李鹏,黄远,高圣翔,杜裕琴,倪江帆,
申请(专利权)人:国家计算机网络与信息安全管理中心,讯飞智元信息科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。