【技术实现步骤摘要】
一种长篇章结构化文本摘要提取方法
本专利技术属于自然语言处理
,特别涉及一种长篇章结构化文本摘要提取方法。
技术介绍
目前长文本在进行摘要提取时一般涉及词嵌入、文本摘要提取、篇章结构分析三部分的处理,对于词嵌入,是将文本数据中的词转化为机器可以学习的数值向量,传统的词嵌入是先对文本中的词采用one-hot编码,再放入Word2Vec模型中进行学习,最终完成从文本到数值向量的映射,该方法简单高效,但无法解决多义词问题,因为Word2Vec下的每个字/词只有一个固定表示,且字/词的出现与上下文无关。文本摘要提取是机器通过对文本特征学习,提取文中重要的句子作为该文本摘要的过程,其实际也是一个分类问题,即对文本句子作重要与否的二分类处理,其中重要的句子则是该文本摘要。目前主流的文本摘要提取方法是基于神经网络模型,其主要分编码与解码两个部分。编码过程是机器对文本特征学习的过程,其中包括句子编码、位置编码、文章编码等,方法有CNN、RNN、BERT等;解码过程主要是分类过程,依据编码的输出结果和给定的标签,完成分类器的训练 ...
【技术保护点】
1.一种长篇章结构化文本摘要提取方法,其特征在于:输入长文本信息,摘要提取步骤为:/n(1)转化为数值信息/n对输入的长文本信息按标点符号进行分句处理,对每一句采用Bert Word Embedding动态词嵌入处理转换成该句的向量矩阵,即计算机学习的数值信息;/n(2)篇章结构分析/n对每两句进行隐式篇章关系分析,即将每两个相邻子句放入两个双向GRU模型中进行处理,对两个模型的隐藏层信息进行拼接,将拼接后的结果放入多层感知机中进行分类,得到预测的类别概率,取概率最高的类别标签作为对应标签,并依据识别的标签类别对长文本进行合理分段;/n(3)摘要提取/n按照基于模型和规则两 ...
【技术特征摘要】
1.一种长篇章结构化文本摘要提取方法,其特征在于:输入长文本信息,摘要提取步骤为:
(1)转化为数值信息
对输入的长文本信息按标点符号进行分句处理,对每一句采用BertWordEmbedding动态词嵌入处理转换成该句的向量矩阵,即计算机学习的数值信息;
(2)篇章结构分析
对每两句进行隐式篇章关系分析,即将每两个相邻子句放入两个双向GRU模型中进行处理,对两个模型的隐藏层信息进行拼接,将拼接后的结果放入多层感知机中进行分类,得到预测的类别概率,取概率最高的类别标签作为对应标签,并依据识别的标签类别对长文本进行合理分段;
(3)摘要提取
按照基于模型和规则两种方式对步骤(2)中分好的每个段落进行摘要提取,最终的摘要结果输出是融合了这两种方式的输出结果。
2.根据权利要求1所述的一种长篇章结构化文本摘要提取方法,其特征在于:步骤(3)中基于模型的摘要提取,是将每一段信息输入到模型中,模型对段落的每一句先进行编码,即特征学习,再将学习到的特征进行解码,即对每个句子进行二分类,完成摘要句的提取。
3.根据权利要求2所述的一种长篇章结构化文本摘要提取方法,其特征在于:所述编码是由两层的双向GRU模型组成,第一层输入的是句子的向量矩阵,经过前向和后向的GRU模型处理后,拼接两个方向的隐藏层向量后做最大池化...
【专利技术属性】
技术研发人员:杨理想,王云甘,周亚,黄家君,徐慧,
申请(专利权)人:南京摄星智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。