一种结合面部和声纹的宠物识别方法技术

技术编号:19321189 阅读:28 留言:0更新日期:2018-11-03 11:18
一种结合面部和声纹的宠物识别方法,包括以下步骤:S1:初始化宠物识别分类器,包括分类器结构初始化和分类器权重初始化;S2:获取图像数据,获取声纹数据;S3:对数据进行分类和标记;S4:声纹数据处理;S5:迭代更新分类器;S6:判断分类器是否达到精度要求,若是,则保存当前参数并结束程序,若否,则继续训练。本发明专利技术结合了面部识别和声纹识别两种识别方法,具有较高识别精度。

A pet recognition method combining face and voiceprint

A pet recognition method combining face and voiceprint includes the following steps: S1: initialization of pet recognition classifier, including initialization of classifier structure and classifier weight; S2: acquisition of image data, acquisition of voiceprint data; S3: classification and marking of data; S4: voiceprint data processing; S5: iteration update. Classifier; S6: Determine whether the classifier meets the accuracy requirements, if so, save the current parameters and end the program, if not, continue training. The invention combines two recognition methods of face recognition and voiceprint recognition, and has high recognition accuracy.

【技术实现步骤摘要】
一种结合面部和声纹的宠物识别方法
本专利技术涉及卷积神经网络(ConvolutionalNeuralNetworks,CNN)和人脸识别技术,其中卷积神经网络使用了2DCNN和3DCNN,人脸识别技术借鉴了FaceNet网络结构和损失函数计算思想,集合了面部识别和声纹识别两种识别方式,在输出结果层面上对两种识别方式进行结合,获得了较高精度。
技术介绍
随着社会技术的不断进步以及各方面对于自动身份验证的迫切要求,生物特征识别技术在近几十年中得到了飞速的发展。作为生物的一种内在属性,生物特性具有很强的自身稳定性和个体差异性,故使其成为了自动身份验证的最理想依据。在众多生物识别技术中,面部识别具有相比于其他识别方法更为突出的直接、有效、方面的特点,从而得到了广泛的研究和应用。近几年,深度学习技术异军突起,在人脸识别领域取得了突破性发展,其中有些模型,诸如FaceNet、Face++、DeepID2等等,识别率高达百分之九十九以上,这为人脸识别技术开始大规模的应用在实际项目中奠定了坚实基础。与此同时,深度学习技术在声纹识别上的应用也取得了巨大的成功。但值得注意的是,现实生活中,需要生物识别技术的不仅仅是人类,猫、狗、猪、羊、牛等等动物均可以和生物识别技术结合起来,以达到优化生产生活的目的。然而在这些领域,相关研究和应用较少,,亟待科研工作者去开发。专利201410006204.6和专利201611032333.8各提出了一种宠物识别方法,但均只涉及到了图片识别,而没有采用声纹识别的方法
技术实现思路
为了克服现有的宠物识别方法的势识别精度较低的不足,针对以上问题,本专利技术结合面部识别和声纹识别两种技术,提出一种识别精度较高的结合面部和声纹的宠物识别方法。本专利技术为解决上述技术问题所采用的技术方案如下:一种结合面部和声纹的宠物识别方法,包括以下步骤:S1:初始化宠物识别分类器,包括分类器结构初始化和分类器权重初始化;S2:获取图像数据,获取声纹数据;S3:对数据进行分类和标记;S4:声纹数据处理;S5:迭代更新分类器;S6:判断分类器是否达到精度要求,若是,则保存当前参数并结束程序,若否,则继续训练。进一步,所述步骤S1包含以下步骤:S1.1:初始化宠物识别分类器结构,所述分类器在面部识别部分结构为FaceNet,在声纹识别部分结构为3D卷积神经网络;S1.2:用初始化函数初始化分类器权重,使用FaceNet在其自己的数据集上训练所得的预训练模型;S1.3:整个网络结构在面部识别和声纹识别的验证处进行结合,结合方式为将两部分算得的欧式距离进行加权相加;再进一步,所述步骤S2包括以下步骤:S2.1:采用人工实地相机采集的方法补充图像数据;S2.2:采用网络爬虫的方法从互联网爬取对应需求的图像数据;S2.3:从采集到的视频图像数据中剥离出声纹数据。所述步骤S3包括以下步骤:S3.1:手动对采集到的图片数据和声纹数据进行标注和分类;S3.2:将数据分为训练数据和测试数据。所述步骤S4包含以下步骤:S4.1:使用python的SpeechPy包将声纹特征提取出来,MFECfeatures计算公式为:其中,E为能量值,sn音频信号,N为信号数量。S4.2:将输入张量转化为[ξ,80,40]的格式其中80为temporalfeature(此特征与音频文件时长有关),40为MFECfeatures(此特征由SpeechPy提取)。所述步骤S5包含以下步骤:S5.1:根据FaceNet独有的三元组损失函数对采集到的宠物图片中的训练集数据进行批次组合;三元组损失函数定义为:其中,J表示损失函数值,m是样本数量,Dia,ip表示目标样本和正样本之间特征的距离,Dia,in表示anchor和负样本之间特征的距离,ia表示第i个目标样本,ip表示第i个正样本,in表示第i个负样本,α表示补充量;S5.2:将宠物图片中的训练集数据按批次输入到S1步骤中得到的预训练模型中进行参数微调。S5.3:在声纹识别部分,根据前面图片训练集的批次组合将其相对应的声纹训练集进行批次组合,并将声纹训练集送入到声纹训练网络中进行迭代训练。所述步骤S6包含以下步骤:S6.1:使用测试数据集对分类器进行精度测试;面部识别部分,精度测试步骤如下:第一步,将图库所有图片送入FaceNet提取提取成128维的特征向量后,存入对比数据库中。第二步将需测试的某张图片输入,提取出其特征向量。声纹识别部分,精度测试步骤如下:第一步,将音频库中所有音频文件送入训练好的3D卷积网络中得到声音模型,即128维的特征向量,将所有声音模型存入数据库中。第二步,将需要测试的某段音频文件输入,提取出其特征向量。结合部分,精度测试步骤如下:第一步,将测试图片和测试音频文件的特征向量,分别对数据库中同一只宠物的图片特征相量和声因模型做减法运算,求得两个欧氏距离。第二步,对两个欧式距离进行加权相加,得到一个距离分数。以此类推,将测试数据和数据库中数据全部进行匹配。第三步,对所有距离分数进行由小到大的排序,取top1的标签为最终识别结果,若此标签和测试数据的标签相同则识别成功,反之,识别失败。S6.2:若精度达到要求,则结束程序,所未到达精度要求,则重回S5继续训练。本专利技术所述方法具有如下有益效果:(1)本专利技术所述的方法具有针对大批量宠物识别到个体的优势,具有很好的应用前景(2)本专利技术所述的方法集合了宠物面部识别和声纹识别两种识别方法,具有高识别精度的优势。(3)本专利技术所述的方法采用了参数量较小的预训练模型,在识别速度上具有较好的性能体验。附图说明图1为一种结合面部和声纹的宠物识别方法的流程图。图2为一种结合面部和声纹的宠物识别方法训练过程的具体流程图。图3为一种结合面部和声纹的宠物识别方法测试过程的具体流程图。具体实施方式下面结合附图对本专利技术作进一步描述。参照图1、图2和图3,一种结合面部和声纹的宠物识别方法,包括以下步骤:S1:初始化宠物识别分类器,包括分类器结构初始化和分类器权重初始化;S2:获取图像数据,获取声纹数据;S3:对数据进行分类和标记;S4:声纹数据处理;S5:迭代更新分类器;S6:判断分类器是否达到精度要求,若是,则保存当前参数并结束程序,若否,则继续训练。本实例对自己采集的图片数据进行分类判别,所述方法包括以下步骤:S1:初始化宠物识别分类器结构实验中面部识别部分采用了FaceNet结构(CNN结构,损失函数采用了三元组函数),声纹识别部分采用了3D神经卷积网络,在tensorflow平台上搭建识别网络结构,且载入FaceNet作者公布的预训练模型作为初始权重参数。S2:获取图像数据和声纹数据实验使用的图像数据和声纹数据来自google在2017年发布的数据集,此数据集名为Audioset。S3:对数据分类和标记手动对数据进行分类和标记,并按比例将数据分为训练集和测试集。S4:声纹数据处理S4.1:使用python的SpeechPy包将声纹特征提取出来,MFECfeatures计算公式为:其中,E为能量值,sn音频信号,N为信号数量。S4.2:将输入张量转化为[ξ,80,40]的格式其中80为temporalfeature(此特征与音频文件时长有关),40为MFECfea本文档来自技高网...

【技术保护点】
1.一种结合面部和声纹的宠物识别方法,其特征在于,所述方法包括以下步骤:S1:初始化宠物识别分类器,包括分类器结构初始化和分类器权重初始化;S2:获取图像数据,获取声纹数据;S3:对数据进行分类和标记;S4:声纹数据处理;S5:迭代更新分类器;S6:判断分类器是否达到精度要求,若是,则保存当前参数并结束程序,若否,则继续训练。

【技术特征摘要】
1.一种结合面部和声纹的宠物识别方法,其特征在于,所述方法包括以下步骤:S1:初始化宠物识别分类器,包括分类器结构初始化和分类器权重初始化;S2:获取图像数据,获取声纹数据;S3:对数据进行分类和标记;S4:声纹数据处理;S5:迭代更新分类器;S6:判断分类器是否达到精度要求,若是,则保存当前参数并结束程序,若否,则继续训练。2.根据权利要求1所述的一种结合面部和声纹的宠物识别方法,其特征在于:所述步骤S1包含以下步骤:S1.1:初始化宠物识别分类器结构,所述分类器在面部识别部分结构为FaceNet,在声纹识别部分结构为3D卷积神经网络;S1.2:用初始化函数初始化分类器权重,使用了FaceNet在其自己的数据集上训练所得的预训练模型;S1.3:整个网络结构在面部识别和声纹识别的结果处进行结合,结合方式为面部识别所得欧式距离除以声纹识别所得概率值。3.根据权利要求1或2所述的一种结合面部和声纹的宠物识别方法,其特征在于:所述步骤S2包括以下步骤:S2.1:采用人工实地相机采集的方法补充图像数据;S2.2:采用网络爬虫的方法从互联网爬取对应需求的图像数据;S2.3:从采集到的视频图像数据中剥离出声纹数据。4.根据权利要求1或2所述的一种结合面部和声纹的宠物识别方法,其特征在于:所述步骤S3包括以下步骤:S3.1:手动对采集到的图片数据和声纹数据进行标注和分类;S3.2:将数据分为训练数据和测试数据。5.根据权利要求1或2所述的一种结合面部和声纹的宠物识别方法,其特征在于:所述步骤S4包括以下步骤:S4.1:使用python的SpeechPy包将声纹特征提取出来,MFECfeatures计算公式为:其中E为能量值,sn音频信号,N为信号数量。S4.2:将输入张量转化为[ξ,80,40]的格式其中80为temporalfeature,40为MFECfeatures。6.根据权利要求1所述的一种结合面部和声纹的宠物识别方法,其特征在于:所述步骤S5包括以下步骤:S5.1:根据FaceNet独有的三元组损失函数对采集到的宠物图片中的训练集数据...

【专利技术属性】
技术研发人员:宣琦任星宇刘毅徐东伟陈晋音
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1