一种音素/音节提取方法及装置制造方法及图纸

技术编号:19181297 阅读:21 留言:0更新日期:2018-10-17 01:07
本发明专利技术公开了一种音素/音节提取方法及装置,包括:S1:获取通过对目标声像资料片段进行人工鉴别得到的先验的音素/音节集合,根据先验的音素/音节集合对预置的语音特征提取模型进行训练,得到训练后的语音特征提取模型;S2:通过训练后的语音特征提取模型对目标声像资料进行音素/音节提取,得到完整的音素/音节集合。本发明专利技术的音素/音节提取方法将人工鉴别和机器提取相结合,与纯人工鉴别相比,减少了人力和耗时,提高了提取效率,与纯机器提取相比,以先验的音素/音节集合对语音特征提取模型进行训练,通过训练后的语音特征提取模型进行音素/音节提取,提高了准确性,解决了当前的音节/音节提取方法无法同时兼顾准确性和效率的技术问题。

A phoneme / syllable extraction method and device

The invention discloses a method and device for extracting phonemes/syllables, including: S1: acquiring a priori set of phonemes/syllables obtained by artificially identifying target audio-visual data fragments, training a preset speech feature extraction model according to a priori set of phonemes/syllables, and obtaining a trained speech feature extraction model. S2: A complete set of phonemes / syllables is obtained by extracting phonemes / syllables from the target audio-visual data through the trained speech feature extraction model. The phoneme/syllable extraction method of the present invention combines manual identification with machine extraction. Compared with pure manual identification, it reduces manpower and time-consuming, and improves extraction efficiency. Compared with pure machine extraction, a prior phoneme/syllable set is used to train the speech feature extraction model, and the trained speech feature extraction model is adopted. This method improves the accuracy and solves the technical problem that the current method of syllable/syllable extraction can not give consideration to both accuracy and efficiency.

【技术实现步骤摘要】
一种音素/音节提取方法及装置
本专利技术涉及声纹领域,尤其涉及一种音素/音节提取方法及装置。
技术介绍
随着科技的发展,声纹(Voiceprint)识别在生活中的应用逐渐增多,其中,声纹是指用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明,声纹不仅具有特定性,而且具有相对稳定性的特点。实验证明,成年以后人的声音可保持长期相对稳定不变,且无论讲话者是故意模仿他人声音和语气,还是耳语轻声讲话,即使模仿得惟妙惟肖,其声纹却始终不相同。基于声纹的这两个特征,侦查人员就可将获取的犯罪分子的声纹和嫌疑人的声纹,通过声纹鉴定技术进行检验对比,迅速认定罪犯,为侦查破案提供可靠的证据声纹鉴定又称语音同一性鉴定,或话者识别/鉴定,指的通过比较、分析和对声像资料记载的语音的同一性问题所进行的科学判断。在实际公安及司法工作中,鉴定人员常常需要对涉案语音(如勒索、恐吓电话录音,经济纠纷中当事双方的谈话录音等)进行检验,分析说话人的身份和判断涉案语音(检材语音)与特定对象语音(样本语音)是否来源于同一人,并作出科学的评判性书面意见—语音同一性鉴定意见,进而为案件的调查提供线索和方向,为法庭诉讼提供证据。声纹鉴定主要分成两类:即话者辨认(SpeakerIdentification)和话者确认(SpeakerVerification)。前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题,而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。不管是辨认还是确认,都需要先对说话人的声纹进行建模。建模需要提取声像资料中的目前对象的音素或者音节。当前主要采用人工鉴定的方法或者纯机器提取的方法,人工鉴定的方法准确性高,但是需要的人力多,且耗时长,效率低下,通过纯机器提取的方法,效率高,但是准确性低。因此,导致了当前的音节/音节提取方法无法同时兼顾准确性和效率的技术问题。
技术实现思路
本专利技术提供了一种音素/音节提取方法及装置,解决了当前的音节/音节提取方法无法同时兼顾准确性和效率的技术问题。本专利技术提供了一种音素/音节提取方法,包括:S1:获取通过对目标声像资料片段进行人工鉴别得到的先验的音素/音节集合,并根据先验的音素/音节集合对预置的语音特征提取模型进行训练,得到训练后的语音特征提取模型;S2:通过训练后的语音特征提取模型对目标声像资料进行音素/音节提取,得到完整的音素/音节集合。优选地,步骤S2具体包括:S21:对目标声像资料进行初步音素/音节提取得到未筛选的音素/音节集合;S22:通过训练后的语音特征提取模型对未筛选的音素/音节集合进行模型匹配,提取未筛选的音素/音节集合中与训练后的音素/音节提取模型的匹配度超过预置阈值的音素/音节,得到完整的音素/音节集合。优选地,步骤S1之前还包括:S0;S0:通过人工鉴别对目标声像资料片段进行音素/音节提取,得到先验的音素/音节集合。优选地,步骤S2之后还包括:S3;S3:根据完整的音素/音节集合进行语音同一性鉴定,得到语音同一性鉴定意见。本专利技术提供了一种音素/音节提取装置,包括:模型训练单元,用于获取通过对目标声像资料片段进行人工鉴别得到的先验的音素/音节集合,并根据先验的音素/音节集合对预置的语音特征提取模型进行训练,得到训练后的语音特征提取模型;特征提取单元,用于通过训练后的语音特征提取模型对目标声像资料进行音素/音节提取,得到完整的音素/音节集合。优选地,特征提取单元包括:初始子单元,用于对目标声像资料进行初步音素/音节提取得到未筛选的音素/音节集合;筛选子单元,用于通过训练后的语音特征提取模型对未筛选的音素/音节集合进行模型匹配,提取未筛选的音素/音节集合中与训练后的音素/音节提取模型的匹配度超过预置阈值的音素/音节,得到完整的音素/音节集合。优选地,还包括:片段提取单元;片段提取单元,用于通过人工鉴别对目标声像资料片段进行音素/音节提取,得到先验的音素/音节集合。优选地,还包括:语音鉴定单元;语音鉴定单元,用于根据完整的音素/音节集合进行语音同一性鉴定,得到语音同一性鉴定意见。从以上技术方案可以看出,本专利技术具有以下优点:本专利技术提供了一种音素/音节提取方法,包括:S1:获取通过对目标声像资料片段进行人工鉴别得到的先验的音素/音节集合,并根据先验的音素/音节集合对预置的语音特征提取模型进行训练,得到训练后的语音特征提取模型;S2:通过训练后的语音特征提取模型对目标声像资料进行音素/音节提取,得到完整的音素/音节集合。本专利技术公开的音素/音节提取方法将人工鉴别和机器提取相结合,与纯人工鉴别相比,大大减少了人力和耗时,提高了音素/音节提取的效率,同时,与传统的纯机器提取方法相比,以人工鉴别得到的先验的音素/音节集合对语音特征提取模型进行训练,通过训练后的语音特征提取模型对目标声像资料进行音素/音节提取,极大地提高了音素/音节提取的准确性,解决了当前的音节/音节提取方法无法同时兼顾准确性和效率的技术问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术实施例提供的一种音素/音节提取方法的一个实施例的流程示意图;图2为本专利技术实施例提供的一种音素/音节提取方法的另一个实施例的流程示意图;图3为本专利技术实施例提供的一种音素/音节提取装置的一个实施例的结果示意图。具体实施方式本专利技术实施例提供了一种音素/音节提取方法及装置,解决了当前的音节/音节提取方法无法同时兼顾准确性和效率的技术问题。为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术实施例提供了一种音素/音节提取方法的一个实施例,包括:步骤101:获取通过对目标声像资料片段进行人工鉴别得到的先验的音素/音节集合,并根据先验的音素/音节集合对预置的语音特征提取模型进行训练,得到训练后的语音特征提取模型;需要说明的是,音素是语音中的最小的单位,依据音节里的发音动作来分析,一个动作构成一个音素,音素分为元音、辅音两大类;音节是语音中最自然的结构单位。确切地说,音节是音位组合构成的最小的语音结构单位,它的构成分头腹尾三部分,因而音节之间具有明显可感知的界限;进行语音同一性鉴定时,可以根据需要选择提取音节进行鉴定或者提取音素进行鉴定;获取通过对目标声像资料片段进行人工鉴别得到的先验的音素/音节集合,并根据先验的音素/音节集合对预置的语音特征提取模型进行训练,则可以得到训练后的语音特征提取模型。步骤102:通过训练后的语音特征提取模型对目标声像资料进行音素/音节提取,得到完整的音素/音节集合。需要说明的是,以训练后的语音特征提取模型对目标声像资料进行音素/本文档来自技高网
...

【技术保护点】
1.一种音素/音节提取方法,其特征在于,包括:S1:获取通过对目标声像资料片段进行人工鉴别得到的先验的音素/音节集合,并根据先验的音素/音节集合对预置的语音特征提取模型进行训练,得到训练后的语音特征提取模型;S2:通过训练后的语音特征提取模型对目标声像资料进行音素/音节提取,得到完整的音素/音节集合。

【技术特征摘要】
1.一种音素/音节提取方法,其特征在于,包括:S1:获取通过对目标声像资料片段进行人工鉴别得到的先验的音素/音节集合,并根据先验的音素/音节集合对预置的语音特征提取模型进行训练,得到训练后的语音特征提取模型;S2:通过训练后的语音特征提取模型对目标声像资料进行音素/音节提取,得到完整的音素/音节集合。2.根据权利要求1所述的一种音素/音节提取方法,其特征在于,步骤S2具体包括:S21:对目标声像资料进行初步音素/音节提取得到未筛选的音素/音节集合;S22:通过训练后的语音特征提取模型对未筛选的音素/音节集合进行模型匹配,提取未筛选的音素/音节集合中与训练后的音素/音节提取模型的匹配度超过预置阈值的音素/音节,得到完整的音素/音节集合。3.根据权利要求1所述的一种音素/音节提取方法,其特征在于,步骤S1之前还包括:S0;S0:通过人工鉴别对目标声像资料片段进行音素/音节提取,得到先验的音素/音节集合。4.根据权利要求1所述的一种音素/音节提取方法,其特征在于,步骤S2之后还包括:S3;S3:根据完整的音素/音节集合进行语音同一性鉴定,得到语音同一性鉴定意见。5.一种音素/音节提取装置,...

【专利技术属性】
技术研发人员:陈昊亮陈丹
申请(专利权)人:广州国音科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1