语音数据库创建方法、声纹注册方法、装置、设备及介质制造方法及图纸

技术编号：18783733 阅读：26 留言：0更新日期：2018-08-29 06:56

本发明专利技术公开了一种语音数据库创建方法、声纹注册方法、装置、设备及介质。该语音数据库创建方法包括：获取原始语音数据，所述原始语音数据包括原始用户标识和语音采集时间；对原始语音数据进行预处理，获取有效语音数据；获取所述有效语音数据对应的信噪比；将有效语音数据存储在语音数据库中，并为语音数据库中的有效语音数据建立索引，索引包括原始用户标识、语音采集时间和信噪比。该语音数据库创建方法通过对原始语音数据的预处理、计算有效语音数据的信噪比以及在创建语音数据库之后建立包括用户标识、语音采集时间和信噪比的索引，提高了数据库数据处理效率。

全部详细技术资料下载

【技术实现步骤摘要】
语音数据库创建方法、声纹注册方法、装置、设备及介质
本专利技术涉及数据处理领域，尤其涉及一种语音数据库创建方法、声纹注册方法、装置、设备及介质。
技术介绍
随着人工智能技术的发展，人脸、语音和指纹等与人体特征相关的技术逐渐应用于实际生活中。声纹是用电声学仪器显示的携带言语信息的声波频谱，具有特定性和相对稳定性的特点。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，每个人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面的差异都很大，任何两个人的声纹图谱都有差异，因此可依靠声纹来对用户的身份进行验证。在声纹识别过程需预先注册声纹，当前声纹注册过程一般都是采用实时录制语音数据并进行声纹提取的方式来进行注册。从录制语音数据到声纹提取均需要消耗较长时间，这导致整个注册过程中耗时较长、注册效率较低。而且，采用实时录制语音数据注册声纹时，因为录制时的环境状态和用户身体健康状态，使得用于提取声纹的录制语音数据与其他时候采集的语音数据存在较大差异，从而影响实时录制语音数据提取的声纹在声纹识别时的准确性。
技术实现思路
本专利技术实施例提供一种语音数据库创建方法、装置、设备及介质，以解决数据库处理效率较低的问题。本专利技术实施例提供一种声纹注册方法、装置、设备及介质，以解决声纹特征准确性不高的问题。第一方面，本专利技术实施例提供一种语音数据库创建方法，包括：获取原始语音数据，所述原始语音数据包括原始用户标识和语音采集时间；对所述原始语音数据进行预处理，获取有效语音数据；获取所述有效语音数据对应的信噪比；将所述有效语音数据存储在语音数据库中，并为...

【技术保护点】
1.一种语音数据库创建方法，其特征在于，包括：获取原始语音数据，所述原始语音数据包括原始用户标识和语音采集时间；对所述原始语音数据进行预处理，获取有效语音数据；获取所述有效语音数据对应的信噪比；将所述有效语音数据存储在语音数据库中，并为所述语音数据库中的所述有效语音数据建立索引，所述索引包括原始用户标识、语音采集时间和信噪比。

【技术特征摘要】
1.一种语音数据库创建方法，其特征在于，包括：获取原始语音数据，所述原始语音数据包括原始用户标识和语音采集时间；对所述原始语音数据进行预处理，获取有效语音数据；获取所述有效语音数据对应的信噪比；将所述有效语音数据存储在语音数据库中，并为所述语音数据库中的所述有效语音数据建立索引，所述索引包括原始用户标识、语音采集时间和信噪比。2.如权利要求1所述的语音数据库创建方法，其特征在于，所述对所述原始语音数据进行预处理，获取有效语音数据，具体包括：对每一原始用户标识对应的原始语音数据进行过滤处理和静音去除处理，获取有效语音数据。3.如权利要求2所述的语音数据库创建方法，其特征在于，所述对每一原始用户标识对应的原始语音数据进行过滤处理，具体包括：提取同一原始用户标识对应的原始语音数据的声纹特征；基于所述声纹特征，将同一原始用户标识对应的原始语音数据采用k-means聚类算法进行聚类分析，获取目标中心点；采用距离算法，计算同一原始用户标识对应的每一原始语音数据与所述目标中心点的距离；去除同一原始用户标识对应的每一原始语音数据中与所述目标中心点的距离大于距离阈值的原始语音数据。4.一种声纹注册方法，其特征在于，包括：获取声纹注册请求，所述声纹注册请求包括注册用户标识和当前时间；基于所述注册用户标识查询语音数据库，获取与所述注册用户标识相匹配的原始用户标识对应的目标索引，所述语音数据库是采用权利要求1-3任一项所述的语音数据库创建方法创建的语音数据库；根据所述当前时间、所述目标索引的语音采集时间和信噪比，获取每一所述目标索引对应的综合指数；选取综合指数最高的目标索引对应的有效语音数据，作为注册语音数据；基于所述注册语音数据，获取对应的声纹特征作为注册声纹。5.如权利要求4所述的声纹注册方法，其特征在于，所述根据所述当前时间、所述目标索引的语音采集时间和信噪比，获取每一所述目标索引对应的综合指数，具体包括：根据所述当前时间、所述目标索引的语音采集时间和信噪比，采用综合指数计算公式计算每一所述目标索引对应的综合指数；所述综合指数计算公式为：综合指数＝a*信噪比+(1-a)*[1/(当前时间-语音采集时间)]；其中，a为预设权重，且...

【专利技术属性】
技术研发人员：张丝潆，王健宗，肖京，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人