本申请涉及人工智能领域,尤其是一种基于元学习的目标分类方法、装置、设备和存储介质。所述方法包括:获取新增数据,并根据所述新增数据构建参照样本;根据新增数据以及参照样本得到待分类目标;将所述参照样本和所述待分类目标输入至预先生成的目标分类模型中,以确定所述待分类目标属于所述参照样本所属分类的第一概率,其中,所述目标分类模型是基于元学习的方式训练得到的;根据所述第一概率确定所述待分类目标所属分类。采用本方法能够提高新增数据分类准确性。此外,本发明专利技术还涉及区块链技术,新增数据以及新增数据对应的分类可存储于区块链节点中。
【技术实现步骤摘要】
基于元学习的目标分类方法、装置、设备和存储介质
本申请涉及人工智能
,特别是涉及一种基于元学习的目标分类方法、装置、设备和存储介质。
技术介绍
随着人工智能技术的发展,出现了计算机视觉、自然语言处理、语音识别等技术,但不同的人对于庞大的人工智能领域各有研究侧重点,如计算机视觉领域中的子任务目前就已经达到了500多个,自然语言处理领域的子任务也有300多个。对于纷繁复杂的学术论文,人工智能领域的学者急需一套系统来对新出现的论文进行分类和打标签。然而,传统的基于机器学习的论文分类模型都只能处理训练集中出现过的论文类别,一旦有新类别的论文过来,这些模型就无法对这些论文进行正确的分类。此外新类别的论文一开始数据较少,由于机器学习模型通常都需要大量的训练样本来进行训练,即时将新类别的论文作为训练数据来进行训练,也不可能得到一个准确率很高的分类模型,导致模型在测试集上的效果变差,进而导致新出现的论文的分类不准确。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够保证新增数据分类准确性的基于元学习的目标分类方法、装置、设备和存储介质。一种基于元学习的目标分类方法,所述方法包括:获取新增数据,并根据所述新增数据构建参照样本;根据所述新增数据以及所述参照样本得到待分类目标;将所述参照样本和所述待分类目标输入至预先生成的目标分类模型中,以确定所述待分类目标属于所述参照样本所属分类的第一概率,其中,所述目标分类模型是基于元学习的方式训练得到的;根据所述第一概率确定所述待分类目标所属分类。在其中一个实施例中,所述新增数据包括多个分类;所述根据所述新增数据构建参照样本包括:将所述新增数据按照分类进行分组,并构建每一分组对应的参照样本;所述将所述参照样本和所述待分类目标输入至预先生成的目标分类模型中,以确定所述待分类目标属于所述参照样本所属分类的第一概率,包括:将所述参照样本和所述待分类目标输入至预先生成的目标分类模型中,以确定所述待分类目标属于每个分类的第一概率。在其中一个实施例中,所述目标分类模型的训练方式包括:获取样本数据,根据所述样本数据构建多组元训练样本;根据所述元训练样本进行训练得到目标分类模型。在其中一个实施例中,所述根据所述元训练样本进行训练得到目标分类模型,包括:对每一组元训练样本的每个支撑样本和查询样本的单词进行序列化;将序列化后的每个单词进行高阶特征处理得到对应的高阶特征表示;对所述高阶特征表示进行平均池化操作以得到每个支撑样本对应的向量表示以及每个查询样本对应的向量表示;根据所述每个支撑样本对应的向量表示以及每个查询样本对应的向量表示进行训练得到目标分类模型。在其中一个实施例中,所述获取样本数据,根据所述样本数据构建多组元训练样本,包括:爬取预设网站上已经分类完成的样本数据,对所述样本数据按照分类进行分组;随机从所述分组中抽取至少一个分组,并确定所抽取的至少一个分组中的第一数量样本数据为支撑样本,第二数量样本数据为查询样本;根据所述支撑样本和所述查询样本得到一组元训练样本;重复随机从所述分组中抽取至少一个分组的步骤以得到多组元训练样本。在其中一个实施例中,所述随机从所述分组中抽取至少一个分组,包括:随机从所述分组中抽取预设数量的分组,所述预设数量的分组大于等于2;所述根据所述每个支撑样本对应的向量表示以及每个查询样本对应的向量表示进行训练得到目标分类模型,包括:获取所述查询样本对应真实分类;根据所述每个支撑样本对应的向量表示以及每个查询样本对应的向量表示,计算每个查询样本对应的模型分类,所述模型分类包括与预设数量的个数相对应数量的第二概率;根据所述真实分类和所述第二概率进行训练得到目标分类模型。在其中一个实施例中,所述根据所述每个支撑样本对应的向量表示以及每个查询样本对应的向量表示进行训练得到目标分类模型,包括:根据以下公式计算每个查询样本对应的支撑样本的类别概率:其中,Sigmod激活函数的输出为0到1之间的实数,atten是用来计算每个支撑样本对查询样本分类的贡献度,⊙代表两个向量的内积,T是一个实数,用于控制atten得到的分布的尖锐程度,k代表支撑样本的序号,k的值与支撑样本的样本数量有关;根据每个所述查询样本的真实分组以及所述类别概率对所述公式进行训练得到目标分类模型。一种基于元学习的目标分类装置,所述装置包括:新增数据获取模块,用于获取新增数据,并根据所述新增数据构建参照样本;待分类目标获取模块,用于根据所述新增数据以及所述参照样本得到待分类目标;模型处理模块,用于将所述参照样本和所述待分类目标输入至预先生成的目标分类模型中,以确定所述待分类目标属于所述参照样本所属分类的第一概率,其中,所述目标分类模型是基于元学习的方式训练得到的;分类模块,用于根据所述概率确定所述待分类目标所属分类。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述上一实施例中的方法的步骤。一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意实施例中的方法的步骤。上述基于元学习的目标分类方法、装置、设备和存储介质,根据新增数据确定了参照样本,这样仅需要将参照样本和待分类目标输入至预先生成的目标分类模型中,即可以得到待分类目标所述的分类,能够自动的为人工智能领域的目标进行分类,且不需要人工干涉,不需要专门的人工智能领域的知识,大大减少了人力成本,且当有新类别的数据来时,不需要重新训练模型,只需要少数几个支撑样本,就可以对待分类目标打标签,以进行分类。附图说明图1为一个实施例中基于元学习的目标分类方法的流程示意图;图2为另一个实施例中基于元学习的目标分类方法的流程示意图;图3为一个实施例中基于元学习的目标分类装置的结构框图;图4为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。在一个实施例中,如图1所示,提供了一种基于元学习的目标分类方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:S102:获取新增数据,并根据新增数据构建参照样本。具体地,新增数据是新增加的数据;以论文为例,当存在新类别的论文时,属于该新类别的论文则属于新增数据。参照样本是根据新增数据所构建的,参照样本是新增数据的子集,即一段时间内新增加了大量的新增数据,本文档来自技高网...
【技术保护点】
1.一种基于元学习的目标分类方法,所述方法包括:/n获取新增数据,并根据所述新增数据构建参照样本;/n根据所述新增数据以及所述参照样本得到待分类目标;/n将所述参照样本和所述待分类目标输入至预先生成的目标分类模型中,以确定所述待分类目标属于所述参照样本所属分类的第一概率,其中,所述目标分类模型是基于元学习的方式训练得到的;/n根据所述第一概率确定所述待分类目标所属分类。/n
【技术特征摘要】
1.一种基于元学习的目标分类方法,所述方法包括:
获取新增数据,并根据所述新增数据构建参照样本;
根据所述新增数据以及所述参照样本得到待分类目标;
将所述参照样本和所述待分类目标输入至预先生成的目标分类模型中,以确定所述待分类目标属于所述参照样本所属分类的第一概率,其中,所述目标分类模型是基于元学习的方式训练得到的;
根据所述第一概率确定所述待分类目标所属分类。
2.根据权利要求1所述的方法,其特征在于,所述新增数据包括多个分类;所述根据所述新增数据构建参照样本包括:
将所述新增数据按照分类进行分组,并构建每一分组对应的参照样本;
所述将所述参照样本和所述待分类目标输入至预先生成的目标分类模型中,以确定所述待分类目标属于所述参照样本所属分类的第一概率,包括:
将所述参照样本和所述待分类目标输入至预先生成的目标分类模型中,以确定所述待分类目标属于每个分类的第一概率。
3.根据权利要求1或2所述的方法,其特征在于,所述目标分类模型的训练方式包括:
获取样本数据,根据所述样本数据构建多组元训练样本;
根据所述元训练样本进行训练得到目标分类模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述元训练样本进行训练得到目标分类模型,包括:
对每一组元训练样本的每个支撑样本和查询样本的单词进行序列化;
将序列化后的每个单词进行高阶特征处理得到对应的高阶特征表示;
对所述高阶特征表示进行平均池化操作以得到每个支撑样本对应的向量表示以及每个查询样本对应的向量表示;
根据所述每个支撑样本对应的向量表示以及每个查询样本对应的向量表示进行训练得到目标分类模型。
5.根据权利要求4所述的方法,其特征在于,所述获取样本数据,根据所述样本数据构建多组元训练样本,包括:
爬取预设网站上已经分类完成的样本数据,对所述样本数据按照分类进行分组;
随机从所述分组中抽取至少一个分组,并确定所抽取的至少一个分组中的第一数量样本数据为支撑样本,第二数量样本数据为查询样本;
根据所述支撑样本和所述查询样本得到一组元训练样本;
重复随机从所述分组中抽取至少一个分组的步骤以得到多组元训练样本。
【专利技术属性】
技术研发人员:刘玉,徐国强,
申请(专利权)人:深圳壹账通智能科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。