【技术实现步骤摘要】
基于深度学习的文本摘要获取方法
[0001]本专利技术属于自然语言处理
,尤其涉及基于深度学习的文本摘要获取方法。
技术介绍
[0002]随着互联网产业的迅速发展,越来越多的人依赖于从互联网平台发布和获取信息,人们日常接触的文本信息呈爆发式增长,通过互联网平台,可以快速访问大量信息,但是由于网络的信息极其庞大、杂乱,人们需要花费更多的时间去筛选文本中的关键信息。因此,从大量文本信息中提取重要的内容,已经成为人们的一个迫切需求。传统的文本摘要主要依赖于人工总结,需要庞大的时间成本和人工成本。与此同时,由于文本信息的爆发式增长,单纯依赖人工来总结文本摘要是不切实际的。因此,自动文本摘要作为一种通过机器自动总结文本摘要的技术,成为目前正在积极研究的一个热门领域。
[0003]自动文本摘要按照输出类型可以分为两类,分别是抽取式文本摘要和生成式文本摘要。抽取式文本摘要通过从原始文本中抽取出重要的片段,并将它们组合形成摘要,不仅可以有效地使内容简洁,便于人们理解,而且实现简单,是目前最主流、应用最多、最容易的方法。但是这种 ...
【技术保护点】
【技术特征摘要】
1.基于深度学习的文本摘要获取方法,其特征在于:本方法包括以下步骤:步骤1,提取原文本的关键词;通过提取出若干个代表文章语义内容的关键词作为文本的局部信息;提取原文档的关键词,基于无监督的思想提取原文本关键词的步骤如下:步骤1.1考虑词的位置信息,首句和末句出现的词语是关键词的概率高,将文档的首句和末句分别重复3次,从而增加关键词在首句和末句的词频;步骤1.2将文本进行分词,利用每个词的tf
‑
idf统计信息,挑选出20个词语作为候选关键词;步骤1.3将步骤1.2得到的关键词进行进一步筛选:使用Doc2Vec获得文档的向量表示d,使用Word2Vec获得候选关键词的向量表示w;根据w和d的余弦距离对候选关键词进行排序,从初始的候选关键词中挑选出与文档接近的关键短语,关键词与文档越接近,说明信息量越大,从而保证得到的关键词与文档更具有相关性;步骤1.4为避免最终关键词出现冗余,即提取出来的关键词虽然具有不同的表达方式,但具有相同的含义,因而需要对步骤1.3得到的关键词进行二次筛选:根据候选关键词之间的余弦距离进行排序,对于有相同语义的关键词,只保留一个;步骤2,构建Encoder模块;Encoder模块的目的是对输入的文本进行编码,即向量化表示;Encoder模块使用Transformer的编码器模块最终获得具有语义特征、上下文特征的原文本的语义表示,成为全局语义信息;步骤3,构建图卷积模块;在步骤1中得到不同关键词的语义信息,为挖掘更有效的局部语义特征,利用图卷积的方法,将局部特征加入关系特征,从而得到具有关系信息的局部语义信息;在图卷积中,输入包括节点和邻接矩阵,其中节点为步骤1提取出来的局部语义信息,节点之间是有关系的,邻接矩阵表示节点之间的关系程度,然后使用图卷积自适应学习每个关键词之间的关系权重,得到关键词之间的邻接矩阵后,将其和初始的语义信息相乘,得到关系特征,再将关系特征与初始特征融合,得到新的一轮特征;步骤4,构建Decoder模块;Decoder模块的目的是生成原文本的摘要,指针生成器网络是一个带有复制机制的seq2seq模型,根据生成器和指针的概率分布预测单词,其中生成器主要利用encoder模块输...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。