摘要文本识别方法及装置制造方法及图纸

技术编号:20820175 阅读:69 留言:0更新日期:2019-04-10 06:00
本发明专利技术公开了一种摘要文本识别方法及装置,该方法包括:获取待处理文档;生成待处理文档的三维向量矩阵,所述三维向量矩阵用于表征文档在文本维度、句子维度以及词维度下的空间位置分布情况;利用预先构建的摘要识别模型对该三维向量矩阵进行处理,得到待处理文档的摘要文本。基于本发明专利技术提供的方法,生成的三维向量矩阵可有效建立文档上下文内容的联系,这就使得所识别到的摘要文本准确性更高。

【技术实现步骤摘要】
摘要文本识别方法及装置
本专利技术涉及文本处理
,尤其涉及一种摘要文本识别方法及装置。
技术介绍
摘要被认为是一篇文档的概括和总结,摘要识别技术即自动识别一篇文档的摘要文本。常见的摘要识别技术以选取为主,即从文档中选取文本作为摘要文本,所选取的文本一般为文档中的句子或者段落。但是,这种摘要识别技术一般是基于传统机器学习算法来实现的,也就是说,摘要识别主要依赖于人工制定规则,而由于无法分析上下文内容,无法保证所识别到的摘要的准确性。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的摘要文本识别方法及装置。具体技术方案如下:一种摘要文本识别方法,包括:获取待处理文档;生成所述待处理文档的三维向量矩阵,所述三维向量矩阵用于表征文档在文本维度、句子维度以及词维度下的空间位置分布情况;利用预先构建的摘要识别模型对所述待处理文档的三维向量矩阵进行处理,得到所述待处理文档的摘要文本,所述摘要识别模型为基于训练样本文档中摘要句的位置以及所述训练样本文档的三维向量矩阵训练得到的模型。优选的,所述生成所述待处理文档的三维向量矩阵,包括:确定所述待处理文档的文本向量,所述文本向量用于表征文档在文本维度下空间位置分布情况;对所述待处理文档中的各个句子分别进行分词处理,得到各个所述句子的第一词序列;根据全部所述第一词序列的长度分布数据,确定词序列长度阈值;对于每一个所述句子,根据所述词序列长度阈值确定该句子的句子向量,所述句子向量用于表征句子在句子维度下的空间分布情况;根据所述词序列长度阈值对该句子所对应的所述第一词序列进行处理,得到长度为所述词序列长度阈值的第二词序列;根据预先构建的词向量模型确定该句子所对应的所述第二词序列中各个词组的词向量,所述词向量用于表征词组在词维度下的空间位置分布情况,所述词向量模型中存储有至少一个词组的词向量;根据所述文本向量,至少一个所述句子向量以及至少一个所述词向量,生成所述待处理文档的三维向量矩阵。优选的,所述根据所述词序列长度阈值对该句子所对应的所述第一词序列进行处理,得到长度为所述词序列长度阈值的第二词序列,包括:判断该句子所对应的第一词序列的长度是否大于所述词序列长度阈值;若该句子所对应的第一词序列的长度大于所述词序列长度阈值,从词序列起始位置开始,从对应的第一词序列中截取词序列长度为所述词序列长度阈值的第二词序列;若该句子所对应的第一词序列的长度不大于所述词序列长度阈值,从词序列末尾位置开始,在对应的第一词序列中添加至少一个空字符串,所述至少一个空字符串的长度等于所述词序列长度阈值与对应的第一词序列长度的差值。优选的,预先构建词向量模型的过程,包括:获取第一文档数据库,所述第一文档数据库中存储有多个样本文档;对于每一个所述样本文档,对该样本文档中各个样本句子进行分词处理,得到各个所述样本句子的第三词序列;对于该样本文档所对应的每一个所述第三词序列,计算该第三词序列中各个词组在该样本文档中出现的概率值;对该第三词序列中概率值不小于概率阈值的各个样本词组进行向量训练,得到相应词向量;将该第三词序列中概率值小于概率阈值的各个样本词组的词向量确定为第一预设词向量;根据各个所述样本文档所对应的全部样本词组及其词向量,构建词向量模型。优选的,所述根据预先构建的词向量模型确定该句子所对应的所述第二词序列中各个词组的词向量,包括:对于该句子所对应的所述第二词序列中的每一个词组,判断该词组是否为空字符串;若该词组是空字符串,将该词组的词向量确定为第二预设词向量;若该第一词组不是空字符串,判断该词组是否为预先构建的词向量模型中的样本词组;若该词组为预先构建的词向量模型中的样本词组,从所述词向量模型中调取该词组所对应的词向量;若该词组不为预先构建的词向量模型中的样本词组,将该词组的词向量确定为第三预设词向量。优选的,预先构建摘要识别模型的过程,包括:获取第二文档数据库,所述第二文档数据库中存储有多个训练样本文档,各个所述训练样本文档中标注有摘要句;对于每一个所述训练样本文档,按照摘要句的位置对该训练样本文本中各个句子添加标签;生成该训练样本文档的三维向量矩阵,所述三维向量矩阵用于表征文档在文本维度、句子维度以及词维度下的空间位置分布情况;根据各个所述训练样本文档的三维向量矩阵及其句子所添加的标签,对层级神经网络进行训练,得到摘要识别模型。一种摘要文本识别装置,包括:文本获取模块、矩阵生成模块和摘要识别模块,所述摘要识别模块中包含摘要识别模型构建单元;所述文本获取模块,用于获取待处理文档;所述矩阵生成模块,用于生成所述待处理文档的三维向量矩阵,所述三维向量矩阵用于表征文档在文本维度、句子维度以及词维度下的空间位置分布情况;所述摘要识别模型构建单元,用于预先构建摘要识别模型;所述摘要识别模块,用于利用预先构建的摘要识别模型对所述待处理文档的三维向量矩阵进行处理,得到所述待处理文档的摘要文本,所述摘要识别模型为基于训练样本文档中摘要句的位置以及所述训练样本文档的三维向量矩阵训练得到的模型。优选的,所述摘要识别模型构建单元,用于:获取第二文档数据库,所述第二文档数据库中存储有多个训练样本文档,各个所述训练样本文档中标注有摘要句;对于每一个所述训练样本文档,按照摘要句的位置对该训练样本文本中各个句子添加标签;生成该训练样本文档的三维向量矩阵,所述三维向量矩阵用于表征文档在文本维度、句子维度以及词维度下的空间位置分布情况;根据各个所述训练样本文档的三维向量矩阵及其句子所添加的标签,对层级神经网络进行训练,得到摘要识别模型。一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述技术方案任意一项所述的摘要文本识别方法。一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述技术方案任意一项所述的摘要文本识别方法。借由上述技术方案,本专利技术提供的摘要文本识别方法及装置,可以生成待处理文档在文本维度、句子维度以及词维度下的三维向量矩阵,进而利用预先构建的摘要识别模型对该三维向量矩阵进行处理,得到待处理文档的摘要文本。由于本专利技术所生成的三维向量矩阵可有效建立文档上下文内容的联系,因此,所识别到的摘要文本准确性更高。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了摘要文本识别方法的方法流程图;图2示出了摘要文本识别方法的部分方法流程图;图3示出了摘要文本识别方法的另一部分方法流程图;图4示出了摘要文本识别方法的又一部分方法流程图;图5示出了摘要文本识别方法的再一部分方法流程图;图6示出了摘要文本识别方法的再一部分方法流程图;图7示出了摘要文本识别装置的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实本文档来自技高网...

【技术保护点】
1.一种摘要文本识别方法,其特征在于,包括:获取待处理文档;生成所述待处理文档的三维向量矩阵,所述三维向量矩阵用于表征文档在文本维度、句子维度以及词维度下的空间位置分布情况;利用预先构建的摘要识别模型对所述待处理文档的三维向量矩阵进行处理,得到所述待处理文档的摘要文本,所述摘要识别模型为基于训练样本文档中摘要句的位置以及所述训练样本文档的三维向量矩阵训练得到的模型。

【技术特征摘要】
1.一种摘要文本识别方法,其特征在于,包括:获取待处理文档;生成所述待处理文档的三维向量矩阵,所述三维向量矩阵用于表征文档在文本维度、句子维度以及词维度下的空间位置分布情况;利用预先构建的摘要识别模型对所述待处理文档的三维向量矩阵进行处理,得到所述待处理文档的摘要文本,所述摘要识别模型为基于训练样本文档中摘要句的位置以及所述训练样本文档的三维向量矩阵训练得到的模型。2.根据权利要求1所述的方法,其特征在于,所述生成所述待处理文档的三维向量矩阵,包括:确定所述待处理文档的文本向量,所述文本向量用于表征文档在文本维度下空间位置分布情况;对所述待处理文档中的各个句子分别进行分词处理,得到各个所述句子的第一词序列;根据全部所述第一词序列的长度分布数据,确定词序列长度阈值;对于每一个所述句子,根据所述词序列长度阈值确定该句子的句子向量,所述句子向量用于表征句子在句子维度下的空间分布情况;根据所述词序列长度阈值对该句子所对应的所述第一词序列进行处理,得到长度为所述词序列长度阈值的第二词序列;根据预先构建的词向量模型确定该句子所对应的所述第二词序列中各个词组的词向量,所述词向量用于表征词组在词维度下的空间位置分布情况,所述词向量模型中存储有至少一个词组的词向量;根据所述文本向量,至少一个所述句子向量以及至少一个所述词向量,生成所述待处理文档的三维向量矩阵。3.根据权利要求2所述的方法,其特征在于,所述根据所述词序列长度阈值对该句子所对应的所述第一词序列进行处理,得到长度为所述词序列长度阈值的第二词序列,包括:判断该句子所对应的第一词序列的长度是否大于所述词序列长度阈值;若该句子所对应的第一词序列的长度大于所述词序列长度阈值,从词序列起始位置开始,从对应的第一词序列中截取词序列长度为所述词序列长度阈值的第二词序列;若该句子所对应的第一词序列的长度不大于所述词序列长度阈值,从词序列末尾位置开始,在对应的第一词序列中添加至少一个空字符串,所述至少一个空字符串的长度等于所述词序列长度阈值与对应的第一词序列长度的差值。4.根据权利要求2所述的方法,其特征在于,预先构建词向量模型的过程,包括:获取第一文档数据库,所述第一文档数据库中存储有多个样本文档;对于每一个所述样本文档,对该样本文档中各个样本句子进行分词处理,得到各个所述样本句子的第三词序列;对于该样本文档所对应的每一个所述第三词序列,计算该第三词序列中各个词组在该样本文档中出现的概率值;对该第三词序列中概率值不小于概率阈值的各个样本词组进行向量训练,得到相应词向量;将该第三词序列中概率值小于概率阈值的各个样本词组的词向量确定为第一预设词向量;根据各个所述样本文档所对应的全部样本词组及其词向量,构建词向量模...

【专利技术属性】
技术研发人员:王天祎
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1