一种融合命名实体识别的中文多标签分类方法技术

技术编号:42008330 阅读:45 留言:0更新日期:2024-07-12 12:28
本发明专利技术涉及一种融合命名实体识别的中文多标签分类方法,包括:针对输入的中文文本进行分词处理,得到多个单词;将每个单词转换为嵌入向量并添加位置编码,得到词向量;对词向量进行多头注意力并行计算,计算每个词与上下文之间的关联程度,得到包含了输入序列全局上下文信息的文本表示;将文本表示输入命名实体识别模型中,输出得到每个词的标签;根据每个词的标签,使用多标签分类器计算得到每个可能标签的概率,结合预设阈值,通过比较确定出所属标签。与现有技术相比,本发明专利技术能够大大提高针对一词多义中文的分类准确性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其是涉及一种融合命名实体识别的中文多标签分类方法


技术介绍

1、互联网上各种文本数据呈现出爆炸式的指数增长趋势,随着神经网络技术在计算机领域中的不断进步,其在人工智能方面的应用表现出优异的性能。文本分类作为自然语言处理的一个重要研究方向,通过对一个文本文件或一段文本进行标记,以达到对文档进行分类的目的。传统文本分类模型如卷积神经网络可以通过卷积滤波提前句子的局部特征,并捕捉局部相关性;递归神经网络可以处理文本中不同长度的序列,并捕获上下文的相关信息,但容易发生梯度爆炸或梯度消失的情况。

2、随着深度学习技术的快速发展与应用,将词转化为词向量的预训练词嵌入方法给自然语言处理带来了新的启示,越来越多的模型使用预训练模型在子任务中微调的方法来进行自然语言处理的子任务,其中也包括了文本分类任务。

3、目前大部分多标签分类模型使用基于bert的预训练模型,通过将词语转化为词嵌入后进行一系列运算来进行分类,相较于传统的机器学习的方法,基于bert的预训练模型可以考虑上下文之间的联系,提高了精度。虽然这种方法已经大本文档来自技高网...

【技术保护点】

1.一种融合命名实体识别的中文多标签分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种融合命名实体识别的中文多标签分类方法,其特征在于,所述步骤S1具体是使用WordPiece分词器对输入的中文文本进行分词处理,并在文本的开始和结束位置设置相应标记。

3.根据权利要求1所述的一种融合命名实体识别的中文多标签分类方法,其特征在于,所述步骤S2的具体过程为:将每个分词后的单词映射至一个高维向量空间中的词向量,这些词向量包含了每个分词的语义信息,完成词嵌入过程;

4.根据权利要求3所述的一种融合命名实体识别的中文多标签分类方法,其特征在于,所...

【技术特征摘要】

1.一种融合命名实体识别的中文多标签分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种融合命名实体识别的中文多标签分类方法,其特征在于,所述步骤s1具体是使用wordpiece分词器对输入的中文文本进行分词处理,并在文本的开始和结束位置设置相应标记。

3.根据权利要求1所述的一种融合命名实体识别的中文多标签分类方法,其特征在于,所述步骤s2的具体过程为:将每个分词后的单词映射至一个高维向量空间中的词向量,这些词向量包含了每个分词的语义信息,完成词嵌入过程;

4.根据权利要求3所述的一种融合命名实体识别的中文多标签分类方法,其特征在于,所述步骤s3的具体过程为:将含有语义信息的高维词向量通过注意力头并行处理,每个注意力头都将计算一个注意力分布,该分布决定了模型关注输入序列中的那些位置,在注意力机制中,首先会计算query、key和value的值,然后通过scale操作进行标准化,以此得到当前query与上下文每个位置的注意力分数,将vlaue向量与注意力分数相乘,然后将结果加权求和,得到了每个位置的加权表示,即得到包含了输入序列全局上下文信息的文本表示。

5.根据权利要求1所述的一种融合命名实体识别的中文多标签分类方...

【专利技术属性】
技术研发人员:刘大明刘思诺
申请(专利权)人:上海电力大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1