一种数据识别方法及装置制造方法及图纸

技术编号：20390731 阅读：28 留言：0更新日期：2019-02-20 03:11

本申请公开了一种识别模型的训练方法及装置，该方法包括：分别获取至少两个数据收集场景下的场景数据集合，其中，每个场景数据集合包括至少一个数据分类下的已配对数据和/或至少一个数据分组下的未配对数据，接着，可以利用获取到的至少两个数据收集场景下的场景数据集合进行模型训练，以训练得到一个识别模型，进而可以利用该识别模型对待识别数据进行识别。可见，本申请从不同数据收集场景获取已配对数据和未配对数据共同作为训练数据，进行识别模型的训练，由于包括未配对数据，可以减少数据标注工作，并且，由于训练数据包括不同数据收集场景下的场景数据集合，可以使训练得到的识别模型在不同场景下均具有较好的数据识别效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据识别方法及装置
本申请涉及计算机
，尤其涉及一种数据识别方法及装置。
技术介绍
目前，随着人脸识别精度的提高，人脸识别技术逐渐走进大众的视野，基于人脸识别的应用也层出不穷，它主要应用在身份识别和身份验证中。其中，身份识别包括失踪人口和嫌疑人追踪、智能交互场景中识别用户身份等场景；而身份验证包括身份证等证件查询、出入考勤查验、身份验证解锁、支付等场景。整个人脸识别的流程包含人脸检测、人脸对齐、人脸识别三个过程，而对于人脸识别过程，需要对应训练一个人脸识别模型，但这需要大量的数据对模型训练进行支持，而数据获取以及数据标注是个耗时耗力的工作。此外，在一个场景下训练的模型在另一个场景下的使用效果可能会变差，不能适用于多场景。
技术实现思路
本申请实施例的主要目的在于提供一种数据识别方法及装置，能够减少数据标注工作并使模型在不同场景下均具有较好的数据识别效果。本申请实施例提供了一种数据识别方法，包括：利用预先训练得到的识别模型对待识别数据进行识别；其中，按照下述方式训练得到所述识别模型；分别获取至少两个数据收集场景下的场景数据集合，所述场景数据集合对应至少一个数据分类和/或至少一个数据分组，所述数据分类下包括经配对标注后的对应于同一识别对象的至少两个已配对数据，所述数据分组下包括未经配对标注的对应于同一识别对象的至少两个未配对数据；利用所述至少两个数据收集场景下的场景数据集合进行模型训练，训练得到所述识别模型。可选的，所述至少两个未配对数据是在连续时段内通过跟踪对应识别对象得到的。可选的，所述利用所述至少两个数据收集场景下的场景数据集合进行模型训练，包括：...

【技术保护点】
1.一种数据识别方法，其特征在于，包括：利用预先训练得到的识别模型对待识别数据进行识别；其中，按照下述方式训练得到所述识别模型；分别获取至少两个数据收集场景下的场景数据集合，所述场景数据集合对应至少一个数据分类和/或至少一个数据分组，所述数据分类下包括经配对标注后的对应于同一识别对象的至少两个已配对数据，所述数据分组下包括未经配对标注的对应于同一识别对象的至少两个未配对数据；利用所述至少两个数据收集场景下的场景数据集合进行模型训练，训练得到所述识别模型。

【技术特征摘要】
1.一种数据识别方法，其特征在于，包括：利用预先训练得到的识别模型对待识别数据进行识别；其中，按照下述方式训练得到所述识别模型；分别获取至少两个数据收集场景下的场景数据集合，所述场景数据集合对应至少一个数据分类和/或至少一个数据分组，所述数据分类下包括经配对标注后的对应于同一识别对象的至少两个已配对数据，所述数据分组下包括未经配对标注的对应于同一识别对象的至少两个未配对数据；利用所述至少两个数据收集场景下的场景数据集合进行模型训练，训练得到所述识别模型。2.根据权利要求1所述的方法，其特征在于，所述至少两个未配对数据是在连续时段内通过跟踪对应识别对象得到的。3.根据权利要求1或2所述的方法，其特征在于，所述利用所述至少两个数据收集场景下的场景数据集合进行模型训练，包括：若所述场景数据集合对应至少一个数据分组，则将所述数据分组下的未配对数据分配至目标数据集合中，所述目标数据集合为不同于所述场景数据集合的另一场景数据集合；利用数据分配后的各个场景数据集合进行模型训练。4.根据权利要求3所述的方法，其特征在于，所述利用数据分配后的各个场景数据集合进行模型训练，包括：确定所述数据分组下的未配对数据在所述目标数据集合中对应的数据分类；利用数据分配后的各个场景数据集合以及每一场景数据集合对应的数据分类，进行模型训练。5.根据权利要求4所述的方法，其特征在于，所述确定所述数据分组下的未配对数据在所述目标数据集合中对应的数据分类，包括：将所述数据分组下的未配对数据，平均分配给所述目标数据集合中的每一已有数据分类；或者，在所述目标数据集合下创建一个新的数据分类，并将所述数据分组下的未配对数据分配给所述新的数据分类；或者，将所述数据分组下的未配对数据，分配给所述目标数据集合中一个已有数据分类。6.根据权利要求4或5所述的方法，其特征在于，所述进行模型训练，包括：利用不同目标损失函数对所述已配对数据及所述未配对数据进行模型训练；其中，在采用所述已配对数据进行模型训练时，所述目标损失函数用于区别各个数据分类、并用于聚合相同数据分类中的数据以及区分不同数据分类中的数据；在采用所述未配对数据进行模型训练时，所述目标损失函数用于区别各个数据分类、并用于聚合相同数据分类中的数据且不能区分不同数据分类中的数据。7.一种数据识别装置，其特征在于，包括：数据识别单元，用于利用预先训练得到的识别模型对待识别数据进行识别，其中，所述识别模型通过集合获取单元和模型训练单元训练得到；所述集合获取单元，用于分别获取至少两个数据收集场景下的场景数据集合，所述场景数据集合对应至少一个数据分类和/或至少一个数据分组，所述数据分类下包括经配对标注后的对应于同一识别对象的至少两个已配对数据，所述数据分组下包括未经配对标注的对应于同一识别对象的至少两个未配对数据；...

【专利技术属性】
技术研发人员：陆磊，吴子扬，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人