【技术实现步骤摘要】
一种文本关键词的生成方法、装置、设备及介质
[0001]本专利技术涉及自然语言处理领域,尤其涉及一种文本关键词的生成方法、装置、设备及介质。
技术介绍
[0002]为保证信息检索、文本摘要以及文本分类的准确性,通常需要预先对文本进行关键词生成。现有技术中通常使用生成文档内关键词和文档外关键词的方法对文本内容进行概括表示。
[0003]现有技术中,生成文档内关键词的方法通常采用两种方法,一种为将关键词提取作为一个排序任务,先从源文本中提取一组候选短语,然后从排序后重要性得分较高的候选短语中选择关键词;另一种为将关键词提取作为序列标注任务,使用长短期记忆网络
‑
条件随机场(Long Short
‑
Term Memory
‑
Conditional Random Field,LSTM
‑
CRF)或变压器的双向编码器表示(Bidirectional Encoder Representation from Transformers,BERT)模型对序列进行标注。生成文档内关键词和文档外关键词的方法通常需要基于序列生成模型对源文本进行编码,然后通过解码器动态从词典中生成关键词以及从源文本拷贝关键词,从而生成文档内关键词和文档外关键词。
[0004]然而,生成文档内关键词的两种方法虽然在一定程度上提高了文档内关键词的提取性能,但是却无法生成文档外关键词。生成文档内关键词和文档外关键词的方法虽然可以同时预测文档内关键词和文档外关键词,但是在编码器中 ...
【技术保护点】
【技术特征摘要】
1.一种文本关键词的生成方法,其特征在于,包括:获取与源文本对应的词向量表示序列,所述词向量表示序列中包括源文本中每个文本词的词向量表示;将词向量表示序列分别输入至编码网络和序列标注网络,获取与源文本对应的第一类上下文表示序列和第二类上下文表示序列;第二类上下文表示中包含有源文本中种子词的特征;将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取所述译码网络输出的词典概率向量序列;每个词典概率向量中包括词典中的每个词典词被选择作为文本关键词的概率值;根据所述词典概率向量序列,生成与所述源文本对应的文本关键词。2.根据权利要求1所述的方法,其特征在于,所述编码网络为预先训练的双向门控循环单元网络;将词向量表示序列输入至编码网络,获取与源文本对应的第一类上下文表示序列,包括:将词向量表示序列输入至所述双向门控循环单元网络中;通过双向门控循环单元网络,获取与每个文本词分别对应的前向隐含状态和反向隐含状态;通过双向门控循环单元网络,将与每个文本词分别对应的前向隐含状态和反向隐含状态进行特征拼接,得到与每个文本词分别对应的第一类上下文表示,以形成与源文本对应的第一类上下文表示序列。3.根据权利要求1所述的方法,其特征在于,所述序列标注网络为预先训练的LSTM
‑
CRF网络;所述LSTM
‑
CRF网络使用BIESO标签体系为输入序列添加标签;将词向量表示序列输入至序列标注网络,获取与源文本对应的第二类上下文表示序列,包括:将词向量表示序列输入至所述LSTM
‑
CRF网络中;获取所述LSTM
‑
CRF网络中的LSTM输出的每个文本词的隐含层特征,作为与每个文本词分别对应的第二类上下文表示,以形成与源文本对应的第二类上下文表示序列。4.根据权利要求1
‑
3任一项所述的方法,其特征在于,所述译码网络为单向门控循环单元网络;将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取所述译码网络输出的词典概率向量序列,包括:将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中;通过所述译码网络针对所述词向量表示序列,获取与每个文本词分别对应的目标隐藏层特征;通过所述译码网络根据每个文本词的目标隐藏层特征和所述第一类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和超出词典词OOV拷贝概率;通过所述译码网络根据每个文本词的目标隐藏层特征和所述第二类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和种子词拷贝概率;
通过所述译码网络根据在每个文本词的作用下,每个词典词的生成和OOV拷贝概率,以及生成和种子词拷贝概率,计算得到与每个文本词对应的词典概率向量,以得到所述词典概率向量序列。5.根据权利要求4所述的方法,其特征在于,通过所述译码网络根据每个文本词的目标隐藏层特征和所述第一类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和OOV拷贝概率,包括:通过所述译码网络采用注意力机制算法,根据每个文本词的目标隐藏层特征和所述第一类上下文表示序列,计算得到每个文本词的第一注意力权重;通过所述译码网络将每个文本词的第一注意力权重与每个文本词的目标隐藏层特征进行特征拼接,并根据第一拼接结果,得到在每个文本词的作用下,词典中每个词典词的第一生成概率;通过所述译码网络计算得到每个文本词的目标隐藏层特征和第一类上下文...
【专利技术属性】
技术研发人员:蒋建慧,王思宇,黄尧,王音,
申请(专利权)人:鸿之微科技上海股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。