【技术实现步骤摘要】
本专利技术涉及自然语言处理,尤其是涉及一种融合命名实体识别的中文多标签分类方法。
技术介绍
1、互联网上各种文本数据呈现出爆炸式的指数增长趋势,随着神经网络技术在计算机领域中的不断进步,其在人工智能方面的应用表现出优异的性能。文本分类作为自然语言处理的一个重要研究方向,通过对一个文本文件或一段文本进行标记,以达到对文档进行分类的目的。传统文本分类模型如卷积神经网络可以通过卷积滤波提前句子的局部特征,并捕捉局部相关性;递归神经网络可以处理文本中不同长度的序列,并捕获上下文的相关信息,但容易发生梯度爆炸或梯度消失的情况。
2、随着深度学习技术的快速发展与应用,将词转化为词向量的预训练词嵌入方法给自然语言处理带来了新的启示,越来越多的模型使用预训练模型在子任务中微调的方法来进行自然语言处理的子任务,其中也包括了文本分类任务。
3、目前大部分多标签分类模型使用基于bert的预训练模型,通过将词语转化为词嵌入后进行一系列运算来进行分类,相较于传统的机器学习的方法,基于bert的预训练模型可以考虑上下文之间的联系,提高了精度
...【技术保护点】
1.一种融合命名实体识别的中文多标签分类方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种融合命名实体识别的中文多标签分类方法,其特征在于,所述步骤S1具体是使用WordPiece分词器对输入的中文文本进行分词处理,并在文本的开始和结束位置设置相应标记。
3.根据权利要求1所述的一种融合命名实体识别的中文多标签分类方法,其特征在于,所述步骤S2的具体过程为:将每个分词后的单词映射至一个高维向量空间中的词向量,这些词向量包含了每个分词的语义信息,完成词嵌入过程;
4.根据权利要求3所述的一种融合命名实体识别的中文多标签分类
...【技术特征摘要】
1.一种融合命名实体识别的中文多标签分类方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种融合命名实体识别的中文多标签分类方法,其特征在于,所述步骤s1具体是使用wordpiece分词器对输入的中文文本进行分词处理,并在文本的开始和结束位置设置相应标记。
3.根据权利要求1所述的一种融合命名实体识别的中文多标签分类方法,其特征在于,所述步骤s2的具体过程为:将每个分词后的单词映射至一个高维向量空间中的词向量,这些词向量包含了每个分词的语义信息,完成词嵌入过程;
4.根据权利要求3所述的一种融合命名实体识别的中文多标签分类方法,其特征在于,所述步骤s3的具体过程为:将含有语义信息的高维词向量通过注意力头并行处理,每个注意力头都将计算一个注意力分布,该分布决定了模型关注输入序列中的那些位置,在注意力机制中,首先会计算query、key和value的值,然后通过scale操作进行标准化,以此得到当前query与上下文每个位置的注意力分数,将vlaue向量与注意力分数相乘,然后将结果加权求和,得到了每个位置的加权表示,即得到包含了输入序列全局上下文信息的文本表示。
5.根据权利要求1所述的一种融合命名实体识别的中文多标签分类方...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。