一种长篇章结构化文本摘要提取方法技术

技术编号:23315186 阅读:43 留言:0更新日期:2020-02-11 17:49
本发明专利技术提供的长篇章结构化文本摘要提取方法,采用动态词嵌入方法可以根据周围单词动态地获取词向量,解决了文本中的多义词问题;采用篇章结构分析,根据句间的关系识别结果合理划分段落,让计算机从全局角度理解文本;采用基于模型和规则的摘要提取是在篇章结构分析的基础上对每一段进行摘要提取的,既解决了传统长文本摘要直接截取的问题;又解决了多领域文本摘要提取问题。

A method of extracting structured text abstracts from long chapters

【技术实现步骤摘要】
一种长篇章结构化文本摘要提取方法
本专利技术属于自然语言处理
,特别涉及一种长篇章结构化文本摘要提取方法。
技术介绍
目前长文本在进行摘要提取时一般涉及词嵌入、文本摘要提取、篇章结构分析三部分的处理,对于词嵌入,是将文本数据中的词转化为机器可以学习的数值向量,传统的词嵌入是先对文本中的词采用one-hot编码,再放入Word2Vec模型中进行学习,最终完成从文本到数值向量的映射,该方法简单高效,但无法解决多义词问题,因为Word2Vec下的每个字/词只有一个固定表示,且字/词的出现与上下文无关。文本摘要提取是机器通过对文本特征学习,提取文中重要的句子作为该文本摘要的过程,其实际也是一个分类问题,即对文本句子作重要与否的二分类处理,其中重要的句子则是该文本摘要。目前主流的文本摘要提取方法是基于神经网络模型,其主要分编码与解码两个部分。编码过程是机器对文本特征学习的过程,其中包括句子编码、位置编码、文章编码等,方法有CNN、RNN、BERT等;解码过程主要是分类过程,依据编码的输出结果和给定的标签,完成分类器的训练。但是目前文本文档来自技高网...

【技术保护点】
1.一种长篇章结构化文本摘要提取方法,其特征在于:输入长文本信息,摘要提取步骤为:/n(1)转化为数值信息/n对输入的长文本信息按标点符号进行分句处理,对每一句采用Bert Word Embedding动态词嵌入处理转换成该句的向量矩阵,即计算机学习的数值信息;/n(2)篇章结构分析/n对每两句进行隐式篇章关系分析,即将每两个相邻子句放入两个双向GRU模型中进行处理,对两个模型的隐藏层信息进行拼接,将拼接后的结果放入多层感知机中进行分类,得到预测的类别概率,取概率最高的类别标签作为对应标签,并依据识别的标签类别对长文本进行合理分段;/n(3)摘要提取/n按照基于模型和规则两种方式对步骤(2)中...

【技术特征摘要】
1.一种长篇章结构化文本摘要提取方法,其特征在于:输入长文本信息,摘要提取步骤为:
(1)转化为数值信息
对输入的长文本信息按标点符号进行分句处理,对每一句采用BertWordEmbedding动态词嵌入处理转换成该句的向量矩阵,即计算机学习的数值信息;
(2)篇章结构分析
对每两句进行隐式篇章关系分析,即将每两个相邻子句放入两个双向GRU模型中进行处理,对两个模型的隐藏层信息进行拼接,将拼接后的结果放入多层感知机中进行分类,得到预测的类别概率,取概率最高的类别标签作为对应标签,并依据识别的标签类别对长文本进行合理分段;
(3)摘要提取
按照基于模型和规则两种方式对步骤(2)中分好的每个段落进行摘要提取,最终的摘要结果输出是融合了这两种方式的输出结果。


2.根据权利要求1所述的一种长篇章结构化文本摘要提取方法,其特征在于:步骤(3)中基于模型的摘要提取,是将每一段信息输入到模型中,模型对段落的每一句先进行编码,即特征学习,再将学习到的特征进行解码,即对每个句子进行二分类,完成摘要句的提取。


3.根据权利要求2所述的一种长篇章结构化文本摘要提取方法,其特征在于:所述编码是由两层的双向GRU模型组成,第一层输入的是句子的向量矩阵,经过前向和后向的GRU模型处理后,拼接两个方向的隐藏层向量后做最大池化...

【专利技术属性】
技术研发人员:杨理想王云甘周亚黄家君徐慧
申请(专利权)人:南京摄星智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1