【技术实现步骤摘要】
一种自动生成文摘的方法、装置及设备
本专利技术涉及文字处理
,尤其涉及一种自动生成文摘的方法、装置及设备。
技术介绍
自动文摘生成的目标是,给定一篇文档或多篇文档,生成一段比原文短很多的摘要,摘要中保有原文档中的重要信息。随着深度学习技术的演化和普及,基于主题词和语言模型的方法,逐渐被基于编码器-解码器架构的文本生成方法所替代。典型的编码器和解码器包括,递归神经网络(RecurrentNeuralNetwork,RNN),以及它的变体LSTM(LongShort-TermMemory,长短期记忆)和GRU(GatedRecurrentUnit,门控循环单元)。现有技术提出了一种引入词法特征的编码器,将词向量和词法特征的向量表示连接在一起作为编码器的输入,借此强调实体词和概念词的作用。文摘生成的一个重要衡量标准是可读性。在上述现有技术中重点关注的是关键词,而关键词通常是名词或名词短语。仅仅有更多关键词,却没有其之间的很好的连接,因此,利用现有技术生成的文摘的可读性无法得到保证。
技术实现思路
有鉴于此,本专利技术提供一种自动生成文摘的方法、装置及设备,能够提高生成 ...
【技术保护点】
1.一种自动生成文摘的方法,其特征在于,包括:提取待处理文档的词法特征;提取所述待处理文档的句法特征;获取所述待处理文档的词向量,以及获取所述词法特征的向量表示和所述句法特征的向量表示;连接所述词向量、所述词法特征的向量表示和所述句法特征的向量表示,获取待处理信息;将所述待处理信息作为编码器的输入,获得所述待处理文档的文摘。
【技术特征摘要】
1.一种自动生成文摘的方法,其特征在于,包括:提取待处理文档的词法特征;提取所述待处理文档的句法特征;获取所述待处理文档的词向量,以及获取所述词法特征的向量表示和所述句法特征的向量表示;连接所述词向量、所述词法特征的向量表示和所述句法特征的向量表示,获取待处理信息;将所述待处理信息作为编码器的输入,获得所述待处理文档的文摘。2.根据权利要求1所述的方法,其特征在于,所述词法特征包括:词性特征,命名实体特征,词频统计特征,逆向文档频率统计特征。3.根据权利要求1所述的方法,其特征在于,所述句法特征包括:依存句法依赖关系特征、句法成分特征。4.根据权利要求1所述的方法,其特征在于,所述获取所述词法特征的向量表示和所述句法特征的向量表示,包括:获取所述词法特征和所述句法特征中的连续值特征和离散值特征;将所述离散值特征用独热表示;将所述连续值特征转换为目标离散值特征,并用独热表示所述目标离散值特征。5.根据权利要求4所述的方法,其特征在于,所述将所述连续值特征转换为目标离散值特征,并用独热表示所述目标离散值特征,包括:将所述连续特征值分配到预设数量的桶中转换为目标离散特征值;用独热表示用于转换所述连续特征值中的目标连续特征值为离散特征值的桶的编号。6.根据权利要求1所述的方法,其特征在于,所述连接所述词向量、所述词法特征的向量表示和所述句法特征的向量表示,获取待处理信息,包括:对于所述待处理文档中的每个词,将每个词对应的词向量、词法特征的向量表示和句法特征的向量表示首尾连接形成一个向量,...
【专利技术属性】
技术研发人员:姜珊珊,童毅轩,张永伟,张佳师,董滨,
申请(专利权)人:株式会社理光,
类型:发明
国别省市:日本,JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。