一种自然语言处理分类模型中多标签分布学习的方法和系统技术方案

技术编号:25989167 阅读:29 留言:0更新日期:2020-10-20 18:57
本发明专利技术公开了一种自然语言处理分类模型中多标签分布学习的方法和系统,属于自然语言处理领域。在获取训练样本后,分别计算得到每个标签的标签向量和每个样本的样本向量;然后根据标签向量和样本向量计算得到每个样本与每个标签之间的相关性;再通过每个样本与每个标签之间的相关性计算得到每个样本的标签分布;最后根据标签分布更新自然处理分类模型。通过这种方式,能够使经过更新后的自然处理分类模型的样本得到更准确的标签,大大提高了自然处理分类模型的泛化能力。

【技术实现步骤摘要】
一种自然语言处理分类模型中多标签分布学习的方法和系统
本专利技术涉及自然语言处理领域,特别地,涉及一种自然语言处理分类模型中多标签分布学习的方法和系统。
技术介绍
自然语言处理任务主要分为三类,篇章级分类任务,句子级分类任务,还有单词级别的分类任务。传统的分类任务中经常会出现一种情况,就是一个样本不仅仅会属于一个分类,于是多标签学习(multi-labellearning)应运而生。但是多标签学习仍然有一些不足,就是很多样本对于是否属于一个标签并不是特别明确,而是处于一种“既可以被打上这个标签,也可以不被打上这个标签”的状态。现有技术在计算样本的标签时得到的标签分布不精确,不利于提高模型的泛化能力。
技术实现思路
为了克服现有技术的不足,本专利技术提供一种自然语言处理分类模型中能够得到精确的标签分布且能够提高模型泛化能力的多标签分布学习的方法和系统本专利技术解决其技术问题所采用的技术方案是:一方面,一种自然语言处理分类模型中多标签分布学习的方法,包括以下步骤:获取训练样本;根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量;根据所述标签向量和所述样本向量计算得到每个样本与每个标签之间的相关性;根据样本与每个标签之间的相关性计算得到每个样本的标签分布;根据所述标签分布更新所述自然语言处理分类模型。进一步地,在获取训练样本时还包括:将语料库中的所有单词转换成词向量,所述词向量包含了对应单词在所述样本中的上下文语义信息。进一步地,所述将语料库中的所有单词转换成词向量包括:将所述样本中以句子切分;对每个句子按照单词进行切分;通过CBOW算法对每个句子进行建模与训练,得到每个单词对应的词向量矩阵,即单词与词向量的映射。进一步地,根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量包括:分别计算每个单词对于样本和对于标签的重要性;以所述重要性为权重,对所述单词的词向量进行加权求和得到每个标签的标签向量和每个样本的样本向量。进一步地,所述计算每个单词对于样本的重要性包括:计算每个单词对于特定标签的单词显著性与单词对于样本集合的关联性;根据所述单词显著性与所述单词对于样本集合的关联性计算每个单词相对于特定样本的重要性。进一步地,所述计算每个单词对于标签的重要性包括:计算每个单词对于特定标签的单词显著性与单词对于标签集合的关联性;根据所述单词显著性与所述单词对于标签集合的关联性计算每个单词相对于特定标签的重要性。进一步地,根据所述标签向量和所述样本向量计算得到每个样本与每个标签之间的相关性包括:采用相似度计算函数,计算所述样本向量与所述标签向量的相似度,所述相似度即为样本与标签之间的相关性。进一步地,根据样本与每个标签之间的相关性计算得到每个样本的标签分布包括:将所述相似度减去每个维度中的最小值得到每个样本的标签分布。进一步地,根据所述标签分布更新所述自然语言处理分类模型包括:将所述样本的原始标签分布进行独热处理得到原始标签数据;根据所述原始标签数据和模型预测结果得到原始损失;根据所述标签分布和模型预测结果得到第一损失;将所述第一损失按照预设权重与所述原始损失进行求和得到第二损失;根据所述第二损失更新所述自然语言处理分类模型。另一方面,一种自然语言处理分类模型中多标签分布学习的系统,包括:样本获取模块,用于获取训练样本;向量计算模块,用于根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量;相关性计算模块,用于根据所述标签向量和所述样本向量计算得到每个样本与每个标签之间的相关性;标签分布计算模块,用于根据样本与每个标签之间的相关性计算得到每个样本的标签分布;模型更新模块,用于根据所述标签分布更新所述自然语言处理分类模型。本申请采用以上技术方案,至少具备以下有益效果:本专利技术技术方案提供了一种自然语言处理分类模型中多标签分布学习的方法和系统,在获取训练样本后,分别计算得到每个标签的标签向量和每个样本的样本向量;然后根据标签向量和样本向量计算得到每个样本与每个标签之间的相关性;再通过每个样本与每个标签之间的相关性计算得到每个样本的标签分布;最后根据标签分布更新自然处理分类模型。通过这种方式,能够使经过更新后的自然处理分类模型的样本得到更准确的标签,大大提高了自然处理分类模型的泛化能力。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种自然语言处理分类模型中多标签分布学习的方法的流程图;图2是本专利技术实施例提供的种自然语言处理分类模型中多标签分布学习的系统结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面结合附图和实施例对本专利技术的技术方案进行详细的描述说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本申请所保护的范围。一个实施例中,本专利技术提供了一种自然语言处理分类模型中多标签分布学习的方法,如图1所示,包括以下步骤:获取训练样本;根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量;根据标签向量和样本向量计算得到每个样本与每个标签之间的相关性;根据样本与每个标签之间的相关性计算得到每个样本的标签分布;根据标签分布更新自然语言处理分类模型。本专利技术实施例提供的一种自然语言处理分类模型中多标签分布学习的方法,在获取训练样本后,分别计算得到每个标签的标签向量和每个样本的样本向量;然后根据标签向量和样本向量计算得到每个样本与每个标签之间的相关性;再通过每个样本与每个标签之间的相关性计算得到每个样本的标签分布;最后根据标签分布更新自然处理分类模型。通过这种方式,能够使经过更新后的自然处理分类模型的样本得到更准确的标签,大大提高了自然处理分类模型的泛化能力。作为对上述实施例的一种补充说明,可选地,在获取训练样本时还包括:将语料库中的所有单词转换成词向量,词向量包含了对应单词在样本中的上下文语义信息。进一步地,将语料库中的所有单词转换成词向量包括:将样本中以句子切分;对每个句子按照单词进行切分;通过CBOW算法对每个句子进行建模与训练,得到每个单词对应的词向量矩阵,即单词与词向量的映射。CBOW算法或者说CBOW模型是本领域技术人员常用的的技术手段,能够得到一个本文档来自技高网...

【技术保护点】
1.一种自然语言处理分类模型中多标签分布学习的方法,其特征在于,包括以下步骤:/n获取训练样本;/n根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量;/n根据所述标签向量和所述样本向量计算得到每个样本与每个标签之间的相关性;/n根据样本与每个标签之间的相关性计算得到每个样本的标签分布;/n根据所述标签分布更新所述自然语言处理分类模型。/n

【技术特征摘要】
1.一种自然语言处理分类模型中多标签分布学习的方法,其特征在于,包括以下步骤:
获取训练样本;
根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量;
根据所述标签向量和所述样本向量计算得到每个样本与每个标签之间的相关性;
根据样本与每个标签之间的相关性计算得到每个样本的标签分布;
根据所述标签分布更新所述自然语言处理分类模型。


2.根据权利要求1所述的方法,其特征在于:在获取训练样本时还包括:
将语料库中的所有单词转换成词向量,所述词向量包含了对应单词在所述样本中的上下文语义信息。


3.根据权利要求2所述的方法,其特征在于:所述将语料库中的所有单词转换成词向量包括:
将所述样本中以句子切分;
对每个句子按照单词进行切分;
通过CBOW算法对每个句子进行建模与训练,得到每个单词对应的词向量矩阵,即单词与词向量的映射。


4.根据权利要求3所述的方法,其特征在于:根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量包括:
分别计算每个单词对于样本和对于标签的重要性;
以所述重要性为权重,对所述单词的词向量进行加权求和得到每个标签的标签向量和每个样本的样本向量。


5.根据权利要求4所述的方法,其特征在于:所述计算每个单词对于样本的重要性包括:
计算每个单词对于特定标签的单词显著性与单词对于样本集合的关联性;
根据所述单词显著性与所述单词对于样本集合的关联性计算每个单词相对于特定样本的重要性。


6.根据权利要求4所述的方法,其特征在于:所述计算每个单词对于标签的重要性包括:...

【专利技术属性】
技术研发人员:叶蔚刘培阳张世琨张君福
申请(专利权)人:北京北大软件工程股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1