【技术实现步骤摘要】
一种中文文本摘要生成方法、计算机可读储存介质及计算机设备
本专利技术涉及文本数据处理领域,特别是涉及一种文本摘要的生成方法、计算机可读储存介质及计算机设备。
技术介绍
随着数据的爆炸性发展,尤其是文本数据的剧增,人们已经无法及时浏览和理解所有感兴趣的文本,但遗漏某些重要的文本数据又会造成很多组织和应用的损失,因此,文本摘要作为总结文本重要数据的信息,成为了人们关注的重点,而如何根据文本数据自动生成摘要也成为了热门研究的课题。目前,现有的文本摘要自动生成方法,主要是使用机器学习中的编码-解码模型,具体的,该模型先使用循环神经网络(RecurrentNeuralNetworks,RNN)作为编码器,将原文本进行信息编码压缩和提取,然后使用带有注意力机制的解码器将编码器压缩的信息进行解码,进而生成原文本的摘要;其中,解码器的结构与编码器一致,也是由循环神经网络构成。但是,通过编码-解码模型生成文本摘要时,解码器每一个时间步都会产生一个词汇,再将这些词汇组合成为句子摘要。而这些词汇的来源则是一个大小为n的词表,从计算时间成本的角度考虑,这个词表通常不会包含训练集中所有的词 ...
【技术保护点】
1.一种文本摘要的生成方法,其特征在于,包括如下步骤:分别对训练集中的文本和摘要进行词切分处理,获得文本的词集合和摘要的词集合;分别计算文本的词集合和摘要的词集合中各词的词频‑逆文档频率,获得文本词表和摘要词表,并分别对文本词表和摘要词表中的各词进行向量化处理,获得文本词表中各词的融合向量和摘要词表中各词的融合向量;将待处理文本进行词切分处理,获得待处理文本的词集合;根据文本词表中的各词与文本词表中各词的融合向量之间的映射关系,将待处理文本的词集合中的各词进行词嵌入处理,获得待处理文本的词集合中各词的融合向量;将待处理文本的词集合中各词的融合向量输入到编码‑解码模型中,生成 ...
【技术特征摘要】
1.一种文本摘要的生成方法,其特征在于,包括如下步骤:分别对训练集中的文本和摘要进行词切分处理,获得文本的词集合和摘要的词集合;分别计算文本的词集合和摘要的词集合中各词的词频-逆文档频率,获得文本词表和摘要词表,并分别对文本词表和摘要词表中的各词进行向量化处理,获得文本词表中各词的融合向量和摘要词表中各词的融合向量;将待处理文本进行词切分处理,获得待处理文本的词集合;根据文本词表中的各词与文本词表中各词的融合向量之间的映射关系,将待处理文本的词集合中的各词进行词嵌入处理,获得待处理文本的词集合中各词的融合向量;将待处理文本的词集合中各词的融合向量输入到编码-解码模型中,生成摘要词向量;根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系,获得摘要词向量对应的词,并将该词输出作为摘要。2.根据权利要求1所述的文本摘要的生成方法,其特征在于,所述计算文本的词集合中各词的词频-逆文档频率,获得文本词表时,包括如下步骤:获取文本的词集合中各词在训练集中的每个文本文档的词频;获取文本的词集合中各词在训练集中的每个文本文档的逆文档频率;获取文本的词集合中各词在训练集中的每个文本文档的词频-逆文档频率;获取文本的词集合中各词在训练集中所有文本文档的词频-逆文档频率;将文本的词集合中各词的词频-逆文档频率按照由大到小的方式进行排序;获取排序在第一个设定阈值内的词频-逆文档频率对应的词作为文本词表。3.根据权利要求2所述的文本摘要的生成方法,其特征在于,所述计算摘要的词集合中各词的词频-逆文档频率,获得摘要词表时,包括如下步骤:获取摘要的词集合中各词在训练集中的每个摘要文档的词频;获取摘要的词集合中各词在训练集中的每个摘要文档的逆文档频率;获取摘要的词集合中各词在训练集中的每个摘要文档的词频-逆文档频率;获取摘要的词集合中各词在训练集中所有摘要文档的词频-逆文档频率;将摘要的词集合中各词的词频-逆文档频率按照由大到小的方式进行排序;获取排序在第二个设定阈值内的词频-逆文档频率对应的词作为摘要词表。4.根据权利要求3所述的文本摘要的生成方法,其特征在于,所述第一设定阈值和第二设定阈值的大小相同,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。