政务资源目录主题分类方法及系统技术方案

技术编号:35708982 阅读:9 留言:0更新日期:2022-11-23 15:07
本发明专利技术公开了一种政务资源目录主题分类方法及系统,本发明专利技术先对政务资源目录主题文本编码处理,将编码结果输入至预训练的ERNIE模型中,然后将通过ERNIE模型得到的词向量集合输入到两种特征提取模型中,通过用TextCNN模型得到文本特征向量,通过BiGRU

【技术实现步骤摘要】
政务资源目录主题分类方法及系统


[0001]本专利技术涉及数据处理
,特别是涉及一种政务资源目录主题分类方法及系统。

技术介绍

[0002]政务资源目录主题分类就是根据资源目录名称进行资源目录主题领域分类,其分类要素属于短文本,相较与长文本,具有字数少、噪声多、特征稀疏和信息不规范等特点,因此存在有效标签提取困难、自动化主题分类难度大的问题。
[0003]目前政务资源目录主题分类一般有两种分类方案:1.人工经验分类,由于个人经验认知受限,分类效果存在较大差异;2.机器学习自动分类,虽然能解决个人经验认知受限的问题,但是由于短文本自身的特征稀疏性,难以兼顾有效提取文本特征和有效获取文本上下文关系信息,这将影响分类结果的准确性,此外,当短文本分类类别过多时,模型训练难度、计算量会显著增大。

技术实现思路

[0004]为此,本专利技术的一个实施例提出一种政务资源目录主题分类方法,以兼顾有效提取文本特征和有效获取文本上下文关系信息,提升分类结果的准确性。
[0005]根据本专利技术一实施例的政务资源目录主题分类方法,包括:对待分类的政务资源目录主题文本进行编码处理,获得编码结果,并将编码结果输入至预训练的ERNIE模型中,取ERNIE模型中最后一层隐藏层的输出,得到政务资源目录主题文本的词向量集合;将词向量集合输入至TextCNN模型中,通过TextCNN模型输出文本特征向量,以及将词向量集合输入至BiGRU

SelfAttention模型中,通过BiGRU

SelfAttention模型输出语义特征向量;将TextCNN模型输出的文本特征向量和BiGRU

SelfAttention模型输出的语义特征向量分别输入至对应的全连接层以得到第一特征向量和第二特征向量,将第一特征向量和第二特征向量相加得到联合特征向量;将联合特征向量输入至预设的Softmax分类器中计算各个主题的概率值,选取概率值最大的主题作为输出。
[0006]根据本专利技术实施例的政务资源目录主题分类方法,对政务资源目录主题文本编码处理后,将编码结果输入至预训练的ERNIE模型中,ERNIE模型是基于大型中文语料库训练得到的,优化了Bert模型对于中文训练的方式,预训练考虑了中文的语法和语义,增加了词与词之间的联系,通过ERNIE模型得到了词的向量表示,然后再将通过ERNIE模型得到的词向量集合输入到两种特征提取模型中,使用TextCNN模型进行文本特征提取,不同窗口的TextCNN的感受野不同,提取信息也不同,将提取的文本特征进行拼接得到文本特征向量,可以得到更丰富信息;使用BiGRU

SelfAttention模型得到语义特征向量,能够做到看全局
又聚焦重点,得到重要的上下文信息,并且能简化计算;通过不同的模型针对性的分别提取文本特征向量和语义特征向量,联合两种特征向量进行文本主题分类,能够有效减低短文本特征稀疏性的影响,从而兼顾有效提取文本特征和有效获取文本上下文关系信息,提升了分类结果的准确性。
[0007]另外,根据本专利技术上述实施例的政务资源目录主题分类方法,还可以具有如下附加的技术特征:进一步地,对待分类的政务资源目录主题文本进行编码处理,获得编码结果,并将编码结果输入至预训练的ERNIE模型中,取ERNIE模型中最后一层隐藏层的输出,得到政务资源目录主题文本的词向量集合的步骤具体包括:采用tokenize方法将待分类的政务资源目录主题文本切分成多个字符,并将政务资源目录主题文本的字符总长度调整为预设长度;将字符转换为ERNIE词表中词的序号,并生成输入序列标记索引;根据政务资源目录主题文本的原始字符长度和填充字符长度生成长度标记索引;将字符的分段标记索引定义为0;获得编码结果,并将编码结果输入至预训练的ERNIE模型中,所述编码结果包括输入序列标记索引、长度标记索引以及分段标记索引,取ERNIE模型中最后一层隐藏层的输出,得到每个字符对应的词向量,并形成词向量集合S,其中,S=(w1,w2,

,w
n
),w1、w2、w
n
分别表示第1个字符、第2个字符、第n个字符对应的词向量。
[0008]进一步地,将词向量集合输入至TextCNN模型中,通过TextCNN模型输出文本特征向量的步骤具体包括:将词向量集合输入至TextCNN模型中,TextCNN模型使用大小为(2,3,4)的卷积核分别对词向量集合中的各个元素进行特征提取,提取的结果为C1、C2、C3,其中,C1、C2、C3分别为三种不同卷积大小提取的特征,再对C1、C2、C3进行拼接,最终输出文本特征向量C,C=cat([C1、C2、C3], dim=

1),其中,cat为张量拼接函数,dim=

1表示按最后一个维度进行拼接。
[0009]进一步地,将词向量集合输入至BiGRU

SelfAttention模型中,通过BiGRU

SelfAttention模型输出语义特征向量的步骤具体包括:将词向量集合S输入至BiGRU

SelfAttention模型中,词向量集合S先经过具有双向GRU的BiGRU层,对于S中的第i个词向量w
i
,由FW

GRU输出前向计算结果、以及由BW

GRU输出反向计算结果,将和拼接得到结果之和,最后由BiGRU层输出计算结果H=(H1,H2,

,H
i
,

,H
n
),其中,H1、H2、H
i
、H
n
分别表示S中的第1个词向量、第2个词向量、第i个词向量、第n个词向量对应的结果之和;采用SelfAttention机制对BiGRU层输出的H进行重新分配权重,其中,SelfAttention层先对注意力权重进行计算得到权重向量M,再计算BiGRU层输出的每个词向量的权重,然后将所有词向量的权重向量进行加权求和,得到语义特征向量并进行输出,语义特征向量Att
BiGRU
=MV,其中,V表示内容矩阵,V= W
v
H,W
v
表示与内容矩阵对应的需要学习的参数矩阵,,K表示索引矩阵,T表示转置,Q表示查询矩阵,Softmax为指数归一化函数,d表示词向量的维度。
[0010]进一步地,将联合特征向量输入至预设的Softmax分类器中计算各个主题的概率值,选取概率值最大的主题作为输出的步骤中,采用下式计算各个主题的概率值:其中,p
k
表示第k个主题的概率值,j表示第j个主题,m表示主题的总数,z
k
表示第k个主题对应的联合特征向量中的元素,z
j
表示第j个主题对应的联合特征向量中的元素。
[0011]本专利技术的另一个实施例提出一种政务资源目录本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种政务资源目录主题分类方法,其特征在于,包括:对待分类的政务资源目录主题文本进行编码处理,获得编码结果,并将编码结果输入至预训练的ERNIE模型中,取ERNIE模型中最后一层隐藏层的输出,得到政务资源目录主题文本的词向量集合;将词向量集合输入至TextCNN模型中,通过TextCNN模型输出文本特征向量,以及将词向量集合输入至BiGRU

SelfAttention模型中,通过BiGRU

SelfAttention模型输出语义特征向量;将TextCNN模型输出的文本特征向量和BiGRU

SelfAttention模型输出的语义特征向量分别输入至对应的全连接层以得到第一特征向量和第二特征向量,将第一特征向量和第二特征向量相加得到联合特征向量;将联合特征向量输入至预设的Softmax分类器中计算各个主题的概率值,选取概率值最大的主题作为输出。2.根据权利要求1所述的政务资源目录主题分类方法,其特征在于,对待分类的政务资源目录主题文本进行编码处理,获得编码结果,并将编码结果输入至预训练的ERNIE模型中,取ERNIE模型中最后一层隐藏层的输出,得到政务资源目录主题文本的词向量集合的步骤具体包括:采用tokenize方法将待分类的政务资源目录主题文本切分成多个字符,并将政务资源目录主题文本的字符总长度调整为预设长度;将字符转换为ERNIE词表中词的序号,并生成输入序列标记索引;根据政务资源目录主题文本的原始字符长度和填充字符长度生成长度标记索引;将字符的分段标记索引定义为0;获得编码结果,并将编码结果输入至预训练的ERNIE模型中,所述编码结果包括输入序列标记索引、长度标记索引以及分段标记索引,取ERNIE模型中最后一层隐藏层的输出,得到每个字符对应的词向量,并形成词向量集合S,其中,S=(w1,w2,

,w
n
),w1、w2、w
n
分别表示第1个字符、第2个字符、第n个字符对应的词向量。3.根据权利要求2所述的政务资源目录主题分类方法,其特征在于,将词向量集合输入至TextCNN模型中,通过TextCNN模型输出文本特征向量的步骤具体包括:将词向量集合输入至TextCNN模型中,TextCNN模型使用大小为(2,3,4)的卷积核分别对词向量集合中的各个元素进行特征提取,提取的结果为C1、C2、C3,其中,C1、C2、C3分别为三种不同卷积大小提取的特征,再对C1、C2、C3进行拼接,最终输出文本特征向量C,C=cat([C1、C2、C3], dim=

1),其中,cat为张量拼接函数,dim=

1表示按最后一个维度进行拼接。4.根据权利要求3所述的政务资源目录主题分类方法,其特征在于,将词向量集合输入至BiGRU

SelfAttention模型中,通过BiGRU

SelfAttention模型输出语义特征向量的步骤具体包括:将词向量集合S输入至BiGRU

SelfAttention模型中,词向量集合S先经过具有双向GRU的BiGRU层,对于S中的第i个词向量w
i
,由FW

GRU输出前向计算结果、以及由BW

GRU输出反向计算结果,将和拼接得到结果之和,最后由BiGRU层输出计算结果H=(H1,H2,

,H
i
,

,H
n
),其中,H1、H2、H
i
、H
n
分别表示S中的第1个词向
量、第2个词向量、第i个词向量、第n个词向量对应的结果之和;采用SelfAttention机制对BiGRU层输出的H进行重新分配权重,其中,SelfAttention层先对注意力权重进行计算得到权重向量M,再计算BiGRU层输出的每个词向量的权重,然后将所有词向量的权重向量进行加权求和,得到语义特征向量并进行输出,语义特征向量Att
BiGRU
=MV,其中,V表示内容矩阵,V= W
v
H,W
v
表示与内容矩阵对应的需要学习的参数矩阵,,K表示索引矩阵,T表示转置,Q表示查询矩阵,Softmax为指数归一化函数,d表示词向量的维度。5.根据权利要求4所述的政务资源目录主题分类方法,其特征在于,将联合特征向量输入至预设的Softmax分类器中计算各个主题的概率值,选取概率值最大的主题作为输出的步骤中,采用下式计算各个主题的概率值:其中,p
k
表示...

【专利技术属性】
技术研发人员:倪勇勇陈聪闵红星
申请(专利权)人:思创数码科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1