The invention discloses a method and device for extracting phonemes/syllables, including: S1: acquiring a priori set of phonemes/syllables obtained by artificially identifying target audio-visual data fragments, training a preset speech feature extraction model according to a priori set of phonemes/syllables, and obtaining a trained speech feature extraction model. S2: A complete set of phonemes / syllables is obtained by extracting phonemes / syllables from the target audio-visual data through the trained speech feature extraction model. The phoneme/syllable extraction method of the present invention combines manual identification with machine extraction. Compared with pure manual identification, it reduces manpower and time-consuming, and improves extraction efficiency. Compared with pure machine extraction, a prior phoneme/syllable set is used to train the speech feature extraction model, and the trained speech feature extraction model is adopted. This method improves the accuracy and solves the technical problem that the current method of syllable/syllable extraction can not give consideration to both accuracy and efficiency.
【技术实现步骤摘要】
一种音素/音节提取方法及装置
本专利技术涉及声纹领域,尤其涉及一种音素/音节提取方法及装置。
技术介绍
随着科技的发展,声纹(Voiceprint)识别在生活中的应用逐渐增多,其中,声纹是指用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明,声纹不仅具有特定性,而且具有相对稳定性的特点。实验证明,成年以后人的声音可保持长期相对稳定不变,且无论讲话者是故意模仿他人声音和语气,还是耳语轻声讲话,即使模仿得惟妙惟肖,其声纹却始终不相同。基于声纹的这两个特征,侦查人员就可将获取的犯罪分子的声纹和嫌疑人的声纹,通过声纹鉴定技术进行检验对比,迅速认定罪犯,为侦查破案提供可靠的证据声纹鉴定又称语音同一性鉴定,或话者识别/鉴定,指的通过比较、分析和对声像资料记载的语音的同一性问题所进行的科学判断。在实际公安及司法工作中,鉴定人员常常需要对涉案语音(如勒索、恐吓电话录音,经济纠纷中当事双方的谈话录音等)进行检验,分析说话人的身份和判断涉案语音(检材语音)与特定对象语音(样本语音)是否来源于同一人,并作出科学的评判性书面意见—语音同一性鉴定意见,进而为案件的调查提供线索和方向,为法庭诉讼提供证据。声纹鉴定主要分成两类:即话者辨认(SpeakerIdentification)和话者确认(SpeakerVerification)。前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题,而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。不管是辨认还是确认,都需要先对说话人的声纹进行建模 ...
【技术保护点】
1.一种音素/音节提取方法,其特征在于,包括:S1:获取通过对目标声像资料片段进行人工鉴别得到的先验的音素/音节集合,并根据先验的音素/音节集合对预置的语音特征提取模型进行训练,得到训练后的语音特征提取模型;S2:通过训练后的语音特征提取模型对目标声像资料进行音素/音节提取,得到完整的音素/音节集合。
【技术特征摘要】
1.一种音素/音节提取方法,其特征在于,包括:S1:获取通过对目标声像资料片段进行人工鉴别得到的先验的音素/音节集合,并根据先验的音素/音节集合对预置的语音特征提取模型进行训练,得到训练后的语音特征提取模型;S2:通过训练后的语音特征提取模型对目标声像资料进行音素/音节提取,得到完整的音素/音节集合。2.根据权利要求1所述的一种音素/音节提取方法,其特征在于,步骤S2具体包括:S21:对目标声像资料进行初步音素/音节提取得到未筛选的音素/音节集合;S22:通过训练后的语音特征提取模型对未筛选的音素/音节集合进行模型匹配,提取未筛选的音素/音节集合中与训练后的音素/音节提取模型的匹配度超过预置阈值的音素/音节,得到完整的音素/音节集合。3.根据权利要求1所述的一种音素/音节提取方法,其特征在于,步骤S1之前还包括:S0;S0:通过人工鉴别对目标声像资料片段进行音素/音节提取,得到先验的音素/音节集合。4.根据权利要求1所述的一种音素/音节提取方法,其特征在于,步骤S2之后还包括:S3;S3:根据完整的音素/音节集合进行语音同一性鉴定,得到语音同一性鉴定意见。5.一种音素/音节提取装置,...
【专利技术属性】
技术研发人员:陈昊亮,陈丹,
申请(专利权)人:广州国音科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。