【技术实现步骤摘要】
文本关键词提取方法
[0001]本申请涉及文本处理
,具体涉及一种文本关键词提取方法。
技术介绍
[0002]关键词是指从文本中归纳总结出的具有显著特征且能够描述文本主题信息的词语,因此其具有代表文本特性反映文本特征的属性。关键词提取任务则是指从文本中自动提取与文本语义相关的主题性词语,其在海量文本数据的分析工作中具有至关重要的作用。现有技术中的文本关键词的提取效果不佳,关键词提取的准确率、召回率和F1值不高,不能满足实际应用的需要。
技术实现思路
[0003]本申请的目的是提供一种文本关键词提取方法。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
[0004]根据本申请实施例的一个方面,提供一种文本关键词提取方法,通过关键词提取模型实现,所述关键词提取模型包括词嵌入层、编码层和解码层。
[0005]进一步地,所述方法 ...
【技术保护点】
【技术特征摘要】
1.一种文本关键词提取方法,其特征在于,通过关键词提取模型实现,所述关键词提取模型包括词嵌入层、编码层和解码层。2.根据权利要求1所述的方法,其特征在于,所述方法包括:输入序列经过词嵌入层,通过BERT预训练层将输入序列映射为BERT词向量,同时通过五笔编码获取对应的五笔序列,并映射为相应的五笔向量,将BERT向量和五笔向量进行拼接融合,并计算输入序列的对应字频将其作为权重值;将词嵌入层输出的词向量输入至BiLSTM编码层,进行语义编码,并将每个字的所有标签的概率结果输出至CRF解码层,通过转移概率矩阵,输出概率最大的标签序列,完成对输入序列的标签预测。3.根据权利要求1所述的方法,其特征在于,所述方法包括:输入序列在嵌入层通过BERT预训练模型和Word2Vec模型映射为固定维度的低维稠密向量,并通过向量拼接融合获取更多的特征。4.根据权利要求3所述的方法,其特征在于,所述方法包括:获取文本序列的丰富语义表示,将每个输入的句子都视为一个字符序列s={s1,S2,...,s
n
}∈V
c
,其中V
c
表示所有字符的合集;其中,表示输入序列中第i个字符的Bert向量,Bert表示Bert预训练模型,Bert(S)∈W
n*h
表示序列s在Bert中的向量矩阵输出,n表示序列中字符个数,h表示Bert中隐状态维数。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:利用官方五笔转换表将文本中的汉字转化为五笔编码,并基于Word2Vec得到五笔编码的向量映射;其中,表示输入序列中第i个字符对应的五笔向量,F
wubi
表示五笔转换表中汉字到五笔编码的映射,e
wb
表示基于Word2Vec得到五笔向量表查找对应五笔编码的向量映射。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:计算输入序列中字符出现的频次,并在得到BERT和五笔向量拼接融合后的向量上直接依据字频进行权重赋值,从而得到最终的融合向量输入至编码模型;依据字频进行权重赋值,从而得到最终的融合向量输入至编码模型;X
i
=E
i
*L其中,E
i
表示输入序列中第i个字符的BERT向量和五笔向量拼接融合后的向量,表示在输入序列中第i个字符的出现频次,L表示输入序列的字频序列,X
i
表示输入序列中第i个字符的最终融合向量。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:采用BiLSTM作为编码层模型。
f
t
=σ(W
f
·
[h<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。