一种自然语言处理分类模型中多标签分布学习的方法和系统技术方案

技术编号：25989167 阅读：29 留言：0更新日期：2020-10-20 18:57

本发明专利技术公开了一种自然语言处理分类模型中多标签分布学习的方法和系统，属于自然语言处理领域。在获取训练样本后，分别计算得到每个标签的标签向量和每个样本的样本向量；然后根据标签向量和样本向量计算得到每个样本与每个标签之间的相关性；再通过每个样本与每个标签之间的相关性计算得到每个样本的标签分布；最后根据标签分布更新自然处理分类模型。通过这种方式，能够使经过更新后的自然处理分类模型的样本得到更准确的标签，大大提高了自然处理分类模型的泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种自然语言处理分类模型中多标签分布学习的方法和系统
本专利技术涉及自然语言处理领域，特别地，涉及一种自然语言处理分类模型中多标签分布学习的方法和系统。
技术介绍
自然语言处理任务主要分为三类，篇章级分类任务，句子级分类任务，还有单词级别的分类任务。传统的分类任务中经常会出现一种情况，就是一个样本不仅仅会属于一个分类，于是多标签学习(multi-labellearning)应运而生。但是多标签学习仍然有一些不足，就是很多样本对于是否属于一个标签并不是特别明确，而是处于一种“既可以被打上这个标签，也可以不被打上这个标签”的状态。现有技术在计算样本的标签时得到的标签分布不精确，不利于提高模型的泛化能力。
技术实现思路
为了克服现有技术的不足，本专利技术提供一种自然语言处理分类模型中能够得到精确的标签分布且能够提高模型泛化能力的多标签分布学习的方法和系统本专利技术解决其技术问题所采用的技术方案是：一方面，一种自然语言处理分类模型中多标签分布学习的方法，包括以下步骤：获取训练样本；根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量；根据所述标签向量和所述样本向量计算得到每个样本与每个标签之间的相关性；根据样本与每个标签之间的相关性计算得到每个样本的标签分布；根据所述标签分布更新所述自然语言处理分类模型。进一步地，在获取训练样本时还包括：将语料库中的所有单词转换成词向量，所述词向量包含了对应单词在所述样本中的上下文...

【技术保护点】
1.一种自然语言处理分类模型中多标签分布学习的方法，其特征在于，包括以下步骤：/n获取训练样本；/n根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量；/n根据所述标签向量和所述样本向量计算得到每个样本与每个标签之间的相关性；/n根据样本与每个标签之间的相关性计算得到每个样本的标签分布；/n根据所述标签分布更新所述自然语言处理分类模型。/n

【技术特征摘要】
1.一种自然语言处理分类模型中多标签分布学习的方法，其特征在于，包括以下步骤：
获取训练样本；
根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量；
根据所述标签向量和所述样本向量计算得到每个样本与每个标签之间的相关性；
根据样本与每个标签之间的相关性计算得到每个样本的标签分布；
根据所述标签分布更新所述自然语言处理分类模型。

2.根据权利要求1所述的方法，其特征在于：在获取训练样本时还包括：
将语料库中的所有单词转换成词向量，所述词向量包含了对应单词在所述样本中的上下文语义信息。

3.根据权利要求2所述的方法，其特征在于：所述将语料库中的所有单词转换成词向量包括：
将所述样本中以句子切分；
对每个句子按照单词进行切分；
通过CBOW算法对每个句子进行建模与训练，得到每个单词对应的词向量矩阵，即单词与词向量的映射。

4.根据权利要求3所述的方法，其特征在于：根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量包括：
分别计算每个单词对于样本和对于标签的重要性；
以所述重要性为权重，对所述单词的词向量进行加权求和得到每个标签的标签向量和每个样本的样本向量。

5.根据权利要求4所述的方法，其特征在于：所述计算每个单词对于样本的重要性包括：
计算每个单词对于特定标签的单词显著性与单词对于样本集合的关联性；
根据所述单词显著性与所述单词对于样本集合的关联性计算每个单词相对于特定样本的重要性。

6.根据权利要求4所述的方法，其特征在于：所述计算每个单词对于标签的重要性包括：...

【专利技术属性】
技术研发人员：叶蔚，刘培阳，张世琨，张君福，
申请(专利权)人：北京北大软件工程股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人