样本数据推荐方法及其装置制造方法及图纸

技术编号:17249444 阅读:17 留言:0更新日期:2018-02-11 07:51
本发明专利技术提出一种样本数据推荐方法及其装置,其中,方法包括:将待分类多个样本数据,输入到预设的至少一个分类模型中,获取每个分类模型对每个样本数据的分类概率;针对每个分类模型,根据分类模型下每个样本数据的分类概率,获取每个样本数据到分类模型的分类边界的第一距离;其中,分类边界为分类模型的用于区分正负样本数据的边界;根据每个样本数据在每个分类模型下的第一距离,计算每个样本数据的目标距离;根据每个样本数据的目标距离,从所有的样本数据中选取目标样本数据进行推荐。该方法能够实现利用推荐的样本数据进行标注,降低人工标注数据的数量,从而降低标注成本,提高标注效率,进而融合多个分类模型的识别结果得到最优识别效果。

【技术实现步骤摘要】
样本数据推荐方法及其装置
本专利技术涉及自然语言处理
,尤其涉及一种样本数据推荐方法及其装置。
技术介绍
机器学习方法依赖于训练样本的标注质量,想要得到较好的学习效果,需要高质量的人工标注样本。大量人工标注的样本数据被用于机器学习方法的训练中,而这些样本数据中的大部分数据对机器学习方法的分类效果并没有显著作用。对于分类效果起到关键作用的数据是处于分类边界的样本数据。而通过人工对样本数据进行标注,为了使标注的样本数据具有正确的边界,需要专业人员制定标注规范,而后组织培训标注人员,且在样本数据标注后,还需进行交叉验证,从而保证标注数据的质量。人工标注样本数据的边界不仅人工成本较高,而且标注效果不佳,使得基于标准的样本数据进行分类模型训练后,基于该分类模型识别处于边界附近的数据时,往往识别效果不佳。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种样本数据推荐方法,以实现利用推荐的样本数据进行标注,降低人工标注数据的数量,从而降低标注成本,提高标注效率,进而融合多个分类模型的识别结果得到最优识别效果。此外,本实施例中,支持多个分类模型的样本数据推荐功能,适用范围广,可以灵活拓展,且实现方式简单,易于工程实践,用于解决现有人工标注样本数据的边界不仅人工成本较高,而且标注效果不佳,使得基于标准的样本数据进行分类模型训练后,基于该分类模型识别处于边界附近的数据时,往往识别效果不佳的问题。本专利技术的第二个目的在于提出一种样本数据推荐装置。本专利技术的第三个目的在于提出一种计算机设备。本专利技术的第四个目的在于提出一种计算机程序产品。本专利技术的第五个目的在于提出一种非临时性计算机可读存储介质。为达上述目的,本专利技术第一方面实施例提出了一种样本数据推荐方法,包括:将待分类多个样本数据,输入到预设的至少一个分类模型中,获取每个分类模型对每个样本数据的分类概率;针对每个分类模型,根据所述分类模型下每个样本数据的分类概率,获取每个样本数据到所述分类模型的分类边界的第一距离;其中,所述分类边界为所述分类模型的用于区分正负样本数据的边界;根据每个样本数据在每个分类模型下的所述第一距离,计算每个样本数据的目标距离;根据每个样本数据的所述目标距离,从所有的样本数据中选取目标样本数据进行推荐。本专利技术实施例的样本数据推荐方法,通过将待分类多个样本数据,输入到预设的至少一个分类模型中,获取每个分类模型对每个样本数据的分类概率,针对每个分类模型,根据分类模型下每个样本数据的分类概率,获取每个样本数据到分类模型的分类边界的第一距离,而后根据每个样本数据在每个分类模型下的第一距离,计算每个样本数据的目标距离,进而根据每个样本数据的目标距离,从所有的样本数据中选取目标样本数据进行推荐。由此,可以实现利用推荐的样本数据进行标注,降低人工标注数据的数量,从而降低标注成本,提高标注效率,进而融合多个分类模型的识别结果得到最优识别效果。此外,本实施例中,支持多个分类模型的样本数据推荐功能,适用范围广,可以灵活拓展,且实现方式简单,易于工程实践。为达上述目的,本专利技术第二方面实施例提出了一种样本数据推荐装置,包括:输入获取模块,用于将待分类多个样本数据,输入到预设的至少一个分类模型中,获取每个分类模型对每个样本数据的分类概率;距离获取模块,用于针对每个分类模型,根据所述分类模型下每个样本数据的分类概率,获取每个样本数据到所述分类模型的分类边界的第一距离;其中,所述分类边界为所述分类模型的用于区分正负样本数据的边界;计算模块,用于根据每个样本数据在每个分类模型下的所述第一距离,计算每个样本数据的目标距离;选取推荐模块,用于根据每个样本数据的所述目标距离,从所有的样本数据中选取目标样本数据进行推荐。本专利技术实施例的样本数据推荐装置,通过将待分类多个样本数据,输入到预设的至少一个分类模型中,获取每个分类模型对每个样本数据的分类概率,针对每个分类模型,根据分类模型下每个样本数据的分类概率,获取每个样本数据到分类模型的分类边界的第一距离,而后根据每个样本数据在每个分类模型下的第一距离,计算每个样本数据的目标距离,进而根据每个样本数据的目标距离,从所有的样本数据中选取目标样本数据进行推荐。由此,可以实现利用推荐的样本数据进行标注,降低人工标注数据的数量,从而降低标注成本,提高标注效率,进而融合多个分类模型的识别结果得到最优识别效果。此外,本实施例中,支持多个分类模型的样本数据推荐功能,适用范围广,可以灵活拓展,且实现方式简单,易于工程实践。为达上述目的,本专利技术第三方面实施例提出了一种计算机设备,包括:存储器和处理器其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如本专利技术实施例第一方面所述的样本数据推荐方法。为达上述目的,本专利技术第四方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行如第一方面实施例所述的样本数据推荐方法。为达上述目的,本专利技术第五方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,当计算机程序被处理器执行时实现如第一方面实施例所述的样本数据推荐方法。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术实施例所提供的一种样本数据推荐方法的流程示意图;图2为本专利技术实施例中分类模型的分类边界示意图;图3为本专利技术实施例所提供的另一种样本数据推荐方法的流程示意图;图4为本专利技术实施例所提供的又一种样本数据推荐方法的流程示意图;图5为本专利技术实施例所提供的一种样本数据推荐装置的结构示意图;图6为本专利技术实施例所提供的另一种样本数据推荐装置的结构示意图;图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述本专利技术实施例的样本数据推荐方法及其装置。图1为本专利技术实施例所提供的一种样本数据推荐方法的流程示意图。如图1所示,该样本数据推荐方法包括以下步骤:步骤101,将待分类多个样本数据,输入到预设的至少一个分类模型中,获取每个分类模型对每个样本数据的分类概率。本专利技术实施例中,待分类多个样本数据为多个需要进行分类的样本数据。该待分类的多个样本数据为未标注过的样本数据。预设的至少一个分类模型为预先训练好的分类模型,例如可以为领域(domain)分类模型、意图分类模型和/或槽位分类模型等,对此不作限制。本实施例中,由于预设的至少一个分类模型为预先训练好的分类模型,因此,将待分类多个样本数据,输入到预设的至少一个分类模型中,可以得到每个分类模型对每个样本数据的分类概率。步骤102,针对每个分类模型,根据分类模型下每个样本数据的分类概率,获取每个样本数据到分类模型的分类边界的第一距离。其中,分类边界为分类模型的用于区分正本文档来自技高网...
样本数据推荐方法及其装置

【技术保护点】
一种样本数据推荐方法,其特征在于,包括:将待分类多个样本数据,输入到预设的至少一个分类模型中,获取每个分类模型对每个样本数据的分类概率;针对每个分类模型,根据所述分类模型下每个样本数据的分类概率,获取每个样本数据到所述分类模型的分类边界的第一距离;其中,所述分类边界为所述分类模型的用于区分正负样本数据的边界;根据每个样本数据在每个分类模型下的所述第一距离,计算每个样本数据的目标距离;根据每个样本数据的所述目标距离,从所有的样本数据中选取目标样本数据进行推荐。

【技术特征摘要】
1.一种样本数据推荐方法,其特征在于,包括:将待分类多个样本数据,输入到预设的至少一个分类模型中,获取每个分类模型对每个样本数据的分类概率;针对每个分类模型,根据所述分类模型下每个样本数据的分类概率,获取每个样本数据到所述分类模型的分类边界的第一距离;其中,所述分类边界为所述分类模型的用于区分正负样本数据的边界;根据每个样本数据在每个分类模型下的所述第一距离,计算每个样本数据的目标距离;根据每个样本数据的所述目标距离,从所有的样本数据中选取目标样本数据进行推荐。2.根据权利要求1所述的样本数据推荐方法,其特征在于,所述根据所述分类模型下每个样本数据的分类概率,获取每个样本数据到所述分类模型的分类边界的第一距离,包括:获取所述分类模型的所述分类边界的边界概率;将所述样本数据的所述分类概率与所述边界概率做差值,得到所述样本数据的所述第一距离。3.根据权利要求2所述的样本数据推荐方法,其特征在于,所述根据每个样本数据在每个分类模型下的所述第一距离,计算每个样本数据的目标距离,包括:获取每个分类模型的权重;其中,所有分类模型的权重之和等于1;将每个分类模型的第一距离与所述权重相乘,得到第一数据;将每个分类模型的所述第一数据相加,得到所述样本数据的目标距离。4.根据权利要求3所述的样本数据推荐方法,其特征在于,所述得到所述样本数据的目标距离之后,还包括:接收权重调整指令;其中,所述权重调整指令中包括调整后每个分类模型的所述权重;根据所述权重调整指令调整每个分类模型的权重;重新将每个分类模型的第一距离与所述权重相乘,得到所述第一数据,并利用每个分类模型的所述第一数据相加后更新所述目标距离。5.根据权利要求1-4任一项所述的样本数据推荐方法,其特征在于,所述根据每个样本数据的所述目标距离,从所有的样本数据中选取目标样本数据进行推荐,包括:对每个样本数据的所述目标距离按照从小到大的顺序进行排序;按照排序结果,从所有的样本数据中选取部分或者全部样本数据作为所述目标样本数据进行推荐。6.根据权利要求5所述的样本数据推荐方法,其特征在于,所述从所有的样本数据中选取部分或者全部样本数据作为所述目标样本数据进行推荐,包括:将每个样本数据的所述目标距离与预设的距离阈值范围比较;选取所述目标距离未超过所述距离阈值范围的所有样本数据作为所述目标样本数据。7.一种样本数据推荐装置,其特征在于,包括:输入获取模块,用于将待分类多个样本数据,输入到预设的至少一个分类模型中,获取每个分类模型对每个样本数据的分类概率;距离获取模块,用于针对每个分类模型,根据所述...

【专利技术属性】
技术研发人员:吴甜贺文嵩韩磊周晓
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1