【技术实现步骤摘要】
政务资源目录主题分类方法及系统
[0001]本专利技术涉及数据处理
,特别是涉及一种政务资源目录主题分类方法及系统。
技术介绍
[0002]政务资源目录主题分类就是根据资源目录名称进行资源目录主题领域分类,其分类要素属于短文本,相较与长文本,具有字数少、噪声多、特征稀疏和信息不规范等特点,因此存在有效标签提取困难、自动化主题分类难度大的问题。
[0003]目前政务资源目录主题分类一般有两种分类方案:1.人工经验分类,由于个人经验认知受限,分类效果存在较大差异;2.机器学习自动分类,虽然能解决个人经验认知受限的问题,但是由于短文本自身的特征稀疏性,难以兼顾有效提取文本特征和有效获取文本上下文关系信息,这将影响分类结果的准确性,此外,当短文本分类类别过多时,模型训练难度、计算量会显著增大。
技术实现思路
[0004]为此,本专利技术的一个实施例提出一种政务资源目录主题分类方法,以兼顾有效提取文本特征和有效获取文本上下文关系信息,提升分类结果的准确性。
[0005]根据本专利技术一实施例的政务资源目录主题分类方法,包括:对待分类的政务资源目录主题文本进行编码处理,获得编码结果,并将编码结果输入至预训练的ERNIE模型中,取ERNIE模型中最后一层隐藏层的输出,得到政务资源目录主题文本的词向量集合;将词向量集合输入至TextCNN模型中,通过TextCNN模型输出文本特征向量,以及将词向量集合输入至BiGRU
‑
SelfAttention模型中,通过BiGRU
...
【技术保护点】
【技术特征摘要】
1.一种政务资源目录主题分类方法,其特征在于,包括:对待分类的政务资源目录主题文本进行编码处理,获得编码结果,并将编码结果输入至预训练的ERNIE模型中,取ERNIE模型中最后一层隐藏层的输出,得到政务资源目录主题文本的词向量集合;将词向量集合输入至TextCNN模型中,通过TextCNN模型输出文本特征向量,以及将词向量集合输入至BiGRU
‑
SelfAttention模型中,通过BiGRU
‑
SelfAttention模型输出语义特征向量;将TextCNN模型输出的文本特征向量和BiGRU
‑
SelfAttention模型输出的语义特征向量分别输入至对应的全连接层以得到第一特征向量和第二特征向量,将第一特征向量和第二特征向量相加得到联合特征向量;将联合特征向量输入至预设的Softmax分类器中计算各个主题的概率值,选取概率值最大的主题作为输出。2.根据权利要求1所述的政务资源目录主题分类方法,其特征在于,对待分类的政务资源目录主题文本进行编码处理,获得编码结果,并将编码结果输入至预训练的ERNIE模型中,取ERNIE模型中最后一层隐藏层的输出,得到政务资源目录主题文本的词向量集合的步骤具体包括:采用tokenize方法将待分类的政务资源目录主题文本切分成多个字符,并将政务资源目录主题文本的字符总长度调整为预设长度;将字符转换为ERNIE词表中词的序号,并生成输入序列标记索引;根据政务资源目录主题文本的原始字符长度和填充字符长度生成长度标记索引;将字符的分段标记索引定义为0;获得编码结果,并将编码结果输入至预训练的ERNIE模型中,所述编码结果包括输入序列标记索引、长度标记索引以及分段标记索引,取ERNIE模型中最后一层隐藏层的输出,得到每个字符对应的词向量,并形成词向量集合S,其中,S=(w1,w2,
…
,w
n
),w1、w2、w
n
分别表示第1个字符、第2个字符、第n个字符对应的词向量。3.根据权利要求2所述的政务资源目录主题分类方法,其特征在于,将词向量集合输入至TextCNN模型中,通过TextCNN模型输出文本特征向量的步骤具体包括:将词向量集合输入至TextCNN模型中,TextCNN模型使用大小为(2,3,4)的卷积核分别对词向量集合中的各个元素进行特征提取,提取的结果为C1、C2、C3,其中,C1、C2、C3分别为三种不同卷积大小提取的特征,再对C1、C2、C3进行拼接,最终输出文本特征向量C,C=cat([C1、C2、C3], dim=
‑
1),其中,cat为张量拼接函数,dim=
‑
1表示按最后一个维度进行拼接。4.根据权利要求3所述的政务资源目录主题分类方法,其特征在于,将词向量集合输入至BiGRU
‑
SelfAttention模型中,通过BiGRU
‑
SelfAttention模型输出语义特征向量的步骤具体包括:将词向量集合S输入至BiGRU
‑
SelfAttention模型中,词向量集合S先经过具有双向GRU的BiGRU层,对于S中的第i个词向量w
i
,由FW
‑
GRU输出前向计算结果、以及由BW
‑
GRU输出反向计算结果,将和拼接得到结果之和,最后由BiGRU层输出计算结果H=(H1,H2,
…
,H
i
,
…
,H
n
),其中,H1、H2、H
i
、H
n
分别表示S中的第1个词向
量、第2个词向量、第i个词向量、第n个词向量对应的结果之和;采用SelfAttention机制对BiGRU层输出的H进行重新分配权重,其中,SelfAttention层先对注意力权重进行计算得到权重向量M,再计算BiGRU层输出的每个词向量的权重,然后将所有词向量的权重向量进行加权求和,得到语义特征向量并进行输出,语义特征向量Att
BiGRU
=MV,其中,V表示内容矩阵,V= W
v
H,W
v
表示与内容矩阵对应的需要学习的参数矩阵,,K表示索引矩阵,T表示转置,Q表示查询矩阵,Softmax为指数归一化函数,d表示词向量的维度。5.根据权利要求4所述的政务资源目录主题分类方法,其特征在于,将联合特征向量输入至预设的Softmax分类器中计算各个主题的概率值,选取概率值最大的主题作为输出的步骤中,采用下式计算各个主题的概率值:其中,p
k
表示...
【专利技术属性】
技术研发人员:倪勇勇,陈聪,闵红星,
申请(专利权)人:思创数码科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。