样本数据推荐方法及其装置制造方法及图纸

技术编号：17249444 阅读：17 留言：0更新日期：2018-02-11 07:51

本发明专利技术提出一种样本数据推荐方法及其装置，其中，方法包括：将待分类多个样本数据，输入到预设的至少一个分类模型中，获取每个分类模型对每个样本数据的分类概率；针对每个分类模型，根据分类模型下每个样本数据的分类概率，获取每个样本数据到分类模型的分类边界的第一距离；其中，分类边界为分类模型的用于区分正负样本数据的边界；根据每个样本数据在每个分类模型下的第一距离，计算每个样本数据的目标距离；根据每个样本数据的目标距离，从所有的样本数据中选取目标样本数据进行推荐。该方法能够实现利用推荐的样本数据进行标注，降低人工标注数据的数量，从而降低标注成本，提高标注效率，进而融合多个分类模型的识别结果得到最优识别效果。

全部详细技术资料下载

【技术实现步骤摘要】
样本数据推荐方法及其装置
本专利技术涉及自然语言处理
，尤其涉及一种样本数据推荐方法及其装置。
技术介绍
机器学习方法依赖于训练样本的标注质量，想要得到较好的学习效果，需要高质量的人工标注样本。大量人工标注的样本数据被用于机器学习方法的训练中，而这些样本数据中的大部分数据对机器学习方法的分类效果并没有显著作用。对于分类效果起到关键作用的数据是处于分类边界的样本数据。而通过人工对样本数据进行标注，为了使标注的样本数据具有正确的边界，需要专业人员制定标注规范，而后组织培训标注人员，且在样本数据标注后，还需进行交叉验证，从而保证标注数据的质量。人工标注样本数据的边界不仅人工成本较高，而且标注效果不佳，使得基于标准的样本数据进行分类模型训练后，基于该分类模型识别处于边界附近的数据时，往往识别效果不佳。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本专利技术的第一个目的在于提出一种样本数据推荐方法，以实现利用推荐的样本数据进行标注，降低人工标注数据的数量，从而降低标注成本，提高标注效率，进而融合多个分类模型的识别结果得到最优识别效果。此外，本实施例中，支持多个分类模型的样本数据推荐功能，适用范围广，可以灵活拓展，且实现方式简单，易于工程实践，用于解决现有人工标注样本数据的边界不仅人工成本较高，而且标注效果不佳，使得基于标准的样本数据进行分类模型训练后，基于该分类模型识别处于边界附近的数据时，往往识别效果不佳的问题。本专利技术的第二个目的在于提出一种样本数据推荐装置。本专利技术的第三个目的在于提出一种计算机设备。本专利技术的第四个...
样本数据推荐方法及其装置

【技术保护点】
一种样本数据推荐方法，其特征在于，包括：将待分类多个样本数据，输入到预设的至少一个分类模型中，获取每个分类模型对每个样本数据的分类概率；针对每个分类模型，根据所述分类模型下每个样本数据的分类概率，获取每个样本数据到所述分类模型的分类边界的第一距离；其中，所述分类边界为所述分类模型的用于区分正负样本数据的边界；根据每个样本数据在每个分类模型下的所述第一距离，计算每个样本数据的目标距离；根据每个样本数据的所述目标距离，从所有的样本数据中选取目标样本数据进行推荐。

【技术特征摘要】
1.一种样本数据推荐方法，其特征在于，包括：将待分类多个样本数据，输入到预设的至少一个分类模型中，获取每个分类模型对每个样本数据的分类概率；针对每个分类模型，根据所述分类模型下每个样本数据的分类概率，获取每个样本数据到所述分类模型的分类边界的第一距离；其中，所述分类边界为所述分类模型的用于区分正负样本数据的边界；根据每个样本数据在每个分类模型下的所述第一距离，计算每个样本数据的目标距离；根据每个样本数据的所述目标距离，从所有的样本数据中选取目标样本数据进行推荐。2.根据权利要求1所述的样本数据推荐方法，其特征在于，所述根据所述分类模型下每个样本数据的分类概率，获取每个样本数据到所述分类模型的分类边界的第一距离，包括：获取所述分类模型的所述分类边界的边界概率；将所述样本数据的所述分类概率与所述边界概率做差值，得到所述样本数据的所述第一距离。3.根据权利要求2所述的样本数据推荐方法，其特征在于，所述根据每个样本数据在每个分类模型下的所述第一距离，计算每个样本数据的目标距离，包括：获取每个分类模型的权重；其中，所有分类模型的权重之和等于1；将每个分类模型的第一距离与所述权重相乘，得到第一数据；将每个分类模型的所述第一数据相加，得到所述样本数据的目标距离。4.根据权利要求3所述的样本数据推荐方法，其特征在于，所述得到所述样本数据的目标距离之后，还包括：接收权重调整指令；其中，所述权重调整指令中包括调整后每个分类模型的所述权重；根据所述权重调整指令调整每个分类模型的权重；重新将每个分类模型的第一距离与所述权重相乘，得到所述第一数据，并利用每个分类模型的所述第一数据相加后更新所述目标距离。5.根据权利要求1-4任一项所述的样本数据推荐方法，其特征在于，所述根据每个样本数据的所述目标距离，从所有的样本数据中选取目标样本数据进行推荐，包括：对每个样本数据的所述目标距离按照从小到大的顺序进行排序；按照排序结果，从所有的样本数据中选取部分或者全部样本数据作为所述目标样本数据进行推荐。6.根据权利要求5所述的样本数据推荐方法，其特征在于，所述从所有的样本数据中选取部分或者全部样本数据作为所述目标样本数据进行推荐，包括：将每个样本数据的所述目标距离与预设的距离阈值范围比较；选取所述目标距离未超过所述距离阈值范围的所有样本数据作为所述目标样本数据。7.一种样本数据推荐装置，其特征在于，包括：输入获取模块，用于将待分类多个样本数据，输入到预设的至少一个分类模型中，获取每个分类模型对每个样本数据的分类概率；距离获取模块，用于针对每个分类模型，根据所述...

【专利技术属性】
技术研发人员：吴甜，贺文嵩，韩磊，周晓，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人