【技术实现步骤摘要】
文本摘要的生成方法、装置、电子设备及存储介质
[0001]本专利技术实施例涉及计算机
,尤其涉及一种文本摘要的生成方法、装置、电子设备及存储介质。
技术介绍
[0002]文本摘要算法是一个自然语言处理的方向,该技术用于将大数据信息进行总结和归纳,用于过滤掉无用信息,提取有价值的信息,进行展示或者分析,使得后续的知识推理、情感分析、数据分析等都可以基于大数据信息进行实现。
[0003]目前比较实用的理解式的摘要抽取的方式是seq2seq模型。这类方法的大体思路是将原文本通过编码(encoder)网络编码成固定大小的向量表示,然后通过解码(decoder)网络将文本的编译信息转换为所需要的文本摘要。
[0004]在实现本专利技术的过程中,发现现有技术中至少存在以下问题:
[0005]目前这类算法仍然存在“信息重复”和“重点信息关注不到”等缺点,使得总结获取的信息并不能很好地运用在实际情况中。主要原因是因为该模型的注意力机制在设计上具有一定的局限性,因此导致了信息上的不准确情况产生。
专利技术 ...
【技术保护点】
【技术特征摘要】
1.一种文本摘要的生成方法,其特征在于,包括:获取目标文本;基于所述目标文本和预先训练出的摘要抽取模型,生成所述目标文本对应的文本摘要;其中,所述摘要抽取模型包括编码模块和解码模块;所述编码模块用于基于所述目标文本中所包含词语的词向量输出文本语义向量;所述解码模块用于基于所述编码模块输出的文本语义向量和前一时刻的注意力向量,输出当前时刻的摘要词向量;其中各时刻的注意力向量是基于对应时刻的注意力差距向量生成的,所述注意力差距向量用于描述对应时刻的注意力与之前对信息的注意力之间的差距。2.根据权利要求1所述的方法,其特征在于,t时刻的注意力向量的生成方法包括:基于所述编码模块输出的文本语义向量、所述解码模块输出的t时刻的摘要词向量、以及t时刻的注意力差距向量,生成t时刻的注意力向量。3.根据权利要求2所述的方法,其特征在于,基于所述编码模块输出的文本语义向量、所述解码模块输出的t时刻的摘要词向量、以及t时刻的注意力差距向量,生成t时刻的注意力向量,包括:基于激活函数对所述编码模块输出的文本语义向量、所述解码模块输出的t时刻的摘要词向量、t时刻的注意力覆盖向量、以及t时刻的注意力差距向量进行处理,得到中间隐层向量;其中,所述注意力覆盖向量表示t时刻之前各时刻的注意力向量的累积向量;基于回归分类函数对中间隐层向量进行处理,得到t时刻的注意力向量。4.根据权利要求1所述的方法,其特征在于,所述编码模块包括文本语义分析单元和文本结构分析单元:其中,所述文本语义分析单元,用于基于所述目标文本中所包含词语的词向量输出文本语义向量;所述文本结构分析单元,用于基于所述目标文本中所包含句子的句子结构特征向量,输出文本结构向量;所述解码模块具体用于:基于所述文本语义分析单元输出的文本语义向量、所述文本结构分析单元输出的文本结构向量和前一时刻的注意力向量,输出当前时刻的摘要词向量;相应的,t时刻的注意力向量的生成方法包括:基于所述文本语义分析单元输出的文本语义向量、所述解码模块输出的t时刻的摘要词向量、所述文本结构分析单元输出的文本结构向量、以及t时刻的注意力差距向量,生成t时刻的注意力向量。5.根据权利要求4所述的方法,其特征在于,所述文本结构分析单元包括:单向的长短期记忆网络LSTM层。6.根据权利要求4所述的方法,其特征在于,所述句子结构特征向量包括:关键词关联度特征向量和/或句子实体因素特征向量;其中,所述关键词关联度特征向量是根据对应句子中包含的所述目标文本的关键词的数量确定的;所述句子实体因素特征向量是根据对应句子中包含的预设命名实体词的数量和对应句子的句子长度确定的。7.根据权利要求...
【专利技术属性】
技术研发人员:李清,
申请(专利权)人:北京京东世纪贸易有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。