一种文本关键词的生成方法、装置、设备及介质制造方法及图纸

技术编号:35111691 阅读:18 留言:0更新日期:2022-10-01 17:26
本发明专利技术公开了一种文本关键词的生成方法、装置、设备及介质。涉及自然语言处理领域。该方法包括:获取与源文本对应的词向量表示序列;将词向量表示序列分别输入至编码网络和序列标注网络,获取与源文本对应的第一类上下文表示序列和第二类上下文表示序列;将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取所述译码网络输出的词典概率向量序列;每个词典概率向量中包括词典中的每个词典词被选择作为文本关键词的概率值;根据所述词典概率向量序列,生成与所述源文本对应的文本关键词。通过本发明专利技术的技术方案,能够尽可能多地生成与源文本对应的关键字,提高关键字的生成率。提高关键字的生成率。提高关键字的生成率。

【技术实现步骤摘要】
一种文本关键词的生成方法、装置、设备及介质


[0001]本专利技术涉及自然语言处理领域,尤其涉及一种文本关键词的生成方法、装置、设备及介质。

技术介绍

[0002]为保证信息检索、文本摘要以及文本分类的准确性,通常需要预先对文本进行关键词生成。现有技术中通常使用生成文档内关键词和文档外关键词的方法对文本内容进行概括表示。
[0003]现有技术中,生成文档内关键词的方法通常采用两种方法,一种为将关键词提取作为一个排序任务,先从源文本中提取一组候选短语,然后从排序后重要性得分较高的候选短语中选择关键词;另一种为将关键词提取作为序列标注任务,使用长短期记忆网络

条件随机场(Long Short

Term Memory

Conditional Random Field,LSTM

CRF)或变压器的双向编码器表示(Bidirectional Encoder Representation from Transformers,BERT)模型对序列进行标注。生成文档内关键词和文档外关键词的方法通常需要基于序列生成模型对源文本进行编码,然后通过解码器动态从词典中生成关键词以及从源文本拷贝关键词,从而生成文档内关键词和文档外关键词。
[0004]然而,生成文档内关键词的两种方法虽然在一定程度上提高了文档内关键词的提取性能,但是却无法生成文档外关键词。生成文档内关键词和文档外关键词的方法虽然可以同时预测文档内关键词和文档外关键词,但是在编码器中引入拷贝机制时只考虑了超出词典外的词(Out Of Vocabulary,OOV),以致关键字的生成率降低。因此,如何尽可能多地生成与源文本对应的关键字,提高关键字的生成率是目前亟待解决的问题。

技术实现思路

[0005]本专利技术提供了一种文本关键词的生成方法、装置、设备及介质,以解决文本关键词的生成率较低的问题。
[0006]根据本专利技术的一方面,提供了一种文本关键词的生成方法,包括:获取与源文本对应的词向量表示序列,所述词向量表示序列中包括源文本中每个文本词的词向量表示;将词向量表示序列分别输入至编码网络和序列标注网络,获取与源文本对应的第一类上下文表示序列和第二类上下文表示序列;第二类上下文表示中包含有源文本中种子词的特征;将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取所述译码网络输出的词典概率向量序列;每个词典概率向量中包括词典中的每个词典词被选择作为文本关键词的概率值;根据所述词典概率向量序列,生成与所述源文本对应的文本关键词。
[0007]根据本专利技术的另一方面,提供了一种文本关键词的生成装置,包括:
词向量表示序列获取模块,用于获取与源文本对应的词向量表示序列,所述词向量表示序列中包括源文本中每个文本词的词向量表示;上下文表示序列获取模块,用于将词向量表示序列分别输入至编码网络和序列标注网络,获取与源文本对应的第一类上下文表示序列和第二类上下文表示序列;第二类上下文表示中包含有源文本中种子词的特征;译码模块,用于将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取所述译码网络输出的词典概率向量序列;每个词典概率向量中包括词典中的每个词典词被选择作为文本关键词的概率值;关键词生成模块,用于根据所述词典概率向量序列,生成与所述源文本对应的文本关键词。
[0008]根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的文本关键词的生成方法。
[0009]根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的文本关键词的生成方法。
[0010]本专利技术实施例的技术方案,通过将与源文本对应的词向量表示序列分别输入至编码网络和序列标注网络,获取与源文本对应的第一类上下文表示序列和第二类上下文表示序列,再将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取译码网络输出的词典概率向量序列,最后根据词典概率向量序列,生成与所述源文本对应的文本关键词,解决了关键字的生成率较低的问题,能够尽可能多地生成与源文本对应的关键字,提高关键字的生成率。
[0011]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013]图1是根据本专利技术实施例一提供的一种文本关键词的生成方法的流程图;图2a是根据本专利技术实施例二提供的一种文本关键词的生成方法的流程图;图2b是根据本专利技术实施例二提供的一种生成和OOV拷贝概率的生成方法的流程图;图2c是根据本专利技术实施例二提供的一种生成和种子词拷贝概率的生成方法的流程图;图2d是根据本专利技术实施例二提供的一种文本关键词的生成方法的流程示意图;
图3是根据本专利技术实施例三提供的一种文本关键词的生成装置的结构示意图;图4是实现本专利技术实施例的文本关键词的生成方法的电子设备的结构示意图。
具体实施方式
[0014]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0015]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0016]实施例一图1为本专利技术实施例一提供了一种文本关键词的生成方法的流程图,本实施例可适用于尽可能多地生成与源文本对应的关键字的情况,该方法可以由文本关键词的生成装置来执行,该文本关键词的生成装置可以采用硬件和/或软本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本关键词的生成方法,其特征在于,包括:获取与源文本对应的词向量表示序列,所述词向量表示序列中包括源文本中每个文本词的词向量表示;将词向量表示序列分别输入至编码网络和序列标注网络,获取与源文本对应的第一类上下文表示序列和第二类上下文表示序列;第二类上下文表示中包含有源文本中种子词的特征;将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取所述译码网络输出的词典概率向量序列;每个词典概率向量中包括词典中的每个词典词被选择作为文本关键词的概率值;根据所述词典概率向量序列,生成与所述源文本对应的文本关键词。2.根据权利要求1所述的方法,其特征在于,所述编码网络为预先训练的双向门控循环单元网络;将词向量表示序列输入至编码网络,获取与源文本对应的第一类上下文表示序列,包括:将词向量表示序列输入至所述双向门控循环单元网络中;通过双向门控循环单元网络,获取与每个文本词分别对应的前向隐含状态和反向隐含状态;通过双向门控循环单元网络,将与每个文本词分别对应的前向隐含状态和反向隐含状态进行特征拼接,得到与每个文本词分别对应的第一类上下文表示,以形成与源文本对应的第一类上下文表示序列。3.根据权利要求1所述的方法,其特征在于,所述序列标注网络为预先训练的LSTM

CRF网络;所述LSTM

CRF网络使用BIESO标签体系为输入序列添加标签;将词向量表示序列输入至序列标注网络,获取与源文本对应的第二类上下文表示序列,包括:将词向量表示序列输入至所述LSTM

CRF网络中;获取所述LSTM

CRF网络中的LSTM输出的每个文本词的隐含层特征,作为与每个文本词分别对应的第二类上下文表示,以形成与源文本对应的第二类上下文表示序列。4.根据权利要求1

3任一项所述的方法,其特征在于,所述译码网络为单向门控循环单元网络;将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取所述译码网络输出的词典概率向量序列,包括:将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中;通过所述译码网络针对所述词向量表示序列,获取与每个文本词分别对应的目标隐藏层特征;通过所述译码网络根据每个文本词的目标隐藏层特征和所述第一类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和超出词典词OOV拷贝概率;通过所述译码网络根据每个文本词的目标隐藏层特征和所述第二类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和种子词拷贝概率;
通过所述译码网络根据在每个文本词的作用下,每个词典词的生成和OOV拷贝概率,以及生成和种子词拷贝概率,计算得到与每个文本词对应的词典概率向量,以得到所述词典概率向量序列。5.根据权利要求4所述的方法,其特征在于,通过所述译码网络根据每个文本词的目标隐藏层特征和所述第一类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和OOV拷贝概率,包括:通过所述译码网络采用注意力机制算法,根据每个文本词的目标隐藏层特征和所述第一类上下文表示序列,计算得到每个文本词的第一注意力权重;通过所述译码网络将每个文本词的第一注意力权重与每个文本词的目标隐藏层特征进行特征拼接,并根据第一拼接结果,得到在每个文本词的作用下,词典中每个词典词的第一生成概率;通过所述译码网络计算得到每个文本词的目标隐藏层特征和第一类上下文...

【专利技术属性】
技术研发人员:蒋建慧王思宇黄尧王音
申请(专利权)人:鸿之微科技上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1