摘要文本识别方法及装置制造方法及图纸

技术编号：20820175 阅读：69 留言：0更新日期：2019-04-10 06:00

本发明专利技术公开了一种摘要文本识别方法及装置，该方法包括：获取待处理文档；生成待处理文档的三维向量矩阵，所述三维向量矩阵用于表征文档在文本维度、句子维度以及词维度下的空间位置分布情况；利用预先构建的摘要识别模型对该三维向量矩阵进行处理，得到待处理文档的摘要文本。基于本发明专利技术提供的方法，生成的三维向量矩阵可有效建立文档上下文内容的联系，这就使得所识别到的摘要文本准确性更高。

全部详细技术资料下载

【技术实现步骤摘要】
摘要文本识别方法及装置
本专利技术涉及文本处理
，尤其涉及一种摘要文本识别方法及装置。
技术介绍
摘要被认为是一篇文档的概括和总结，摘要识别技术即自动识别一篇文档的摘要文本。常见的摘要识别技术以选取为主，即从文档中选取文本作为摘要文本，所选取的文本一般为文档中的句子或者段落。但是，这种摘要识别技术一般是基于传统机器学习算法来实现的，也就是说，摘要识别主要依赖于人工制定规则，而由于无法分析上下文内容，无法保证所识别到的摘要的准确性。
技术实现思路
鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的摘要文本识别方法及装置。具体技术方案如下：一种摘要文本识别方法，包括：获取待处理文档；生成所述待处理文档的三维向量矩阵，所述三维向量矩阵用于表征文档在文本维度、句子维度以及词维度下的空间位置分布情况；利用预先构建的摘要识别模型对所述待处理文档的三维向量矩阵进行处理，得到所述待处理文档的摘要文本，所述摘要识别模型为基于训练样本文档中摘要句的位置以及所述训练样本文档的三维向量矩阵训练得到的模型。优选的，所述生成所述待处理文档的三维向量矩阵，包括：确定所述待处理文档的文本向量，所述文本向量用于表征文档在文本维度下空间位置分布情况；对所述待处理文档中的各个句子分别进行分词处理，得到各个所述句子的第一词序列；根据全部所述第一词序列的长度分布数据，确定词序列长度阈值；对于每一个所述句子，根据所述词序列长度阈值确定该句子的句子向量，所述句子向量用于表征句子在句子维度下的空间分布情况；根据所述词序列长度阈值对该句子所对应的所述第一词序列进行处理，得...

【技术保护点】
1.一种摘要文本识别方法，其特征在于，包括：获取待处理文档；生成所述待处理文档的三维向量矩阵，所述三维向量矩阵用于表征文档在文本维度、句子维度以及词维度下的空间位置分布情况；利用预先构建的摘要识别模型对所述待处理文档的三维向量矩阵进行处理，得到所述待处理文档的摘要文本，所述摘要识别模型为基于训练样本文档中摘要句的位置以及所述训练样本文档的三维向量矩阵训练得到的模型。

【技术特征摘要】
1.一种摘要文本识别方法，其特征在于，包括：获取待处理文档；生成所述待处理文档的三维向量矩阵，所述三维向量矩阵用于表征文档在文本维度、句子维度以及词维度下的空间位置分布情况；利用预先构建的摘要识别模型对所述待处理文档的三维向量矩阵进行处理，得到所述待处理文档的摘要文本，所述摘要识别模型为基于训练样本文档中摘要句的位置以及所述训练样本文档的三维向量矩阵训练得到的模型。2.根据权利要求1所述的方法，其特征在于，所述生成所述待处理文档的三维向量矩阵，包括：确定所述待处理文档的文本向量，所述文本向量用于表征文档在文本维度下空间位置分布情况；对所述待处理文档中的各个句子分别进行分词处理，得到各个所述句子的第一词序列；根据全部所述第一词序列的长度分布数据，确定词序列长度阈值；对于每一个所述句子，根据所述词序列长度阈值确定该句子的句子向量，所述句子向量用于表征句子在句子维度下的空间分布情况；根据所述词序列长度阈值对该句子所对应的所述第一词序列进行处理，得到长度为所述词序列长度阈值的第二词序列；根据预先构建的词向量模型确定该句子所对应的所述第二词序列中各个词组的词向量，所述词向量用于表征词组在词维度下的空间位置分布情况，所述词向量模型中存储有至少一个词组的词向量；根据所述文本向量，至少一个所述句子向量以及至少一个所述词向量，生成所述待处理文档的三维向量矩阵。3.根据权利要求2所述的方法，其特征在于，所述根据所述词序列长度阈值对该句子所对应的所述第一词序列进行处理，得到长度为所述词序列长度阈值的第二词序列，包括：判断该句子所对应的第一词序列的长度是否大于所述词序列长度阈值；若该句子所对应的第一词序列的长度大于所述词序列长度阈值，从词序列起始位置开始，从对应的第一词序列中截取词序列长度为所述词序列长度阈值的第二词序列；若该句子所对应的第一词序列的长度不大于所述词序列长度阈值，从词序列末尾位置开始，在对应的第一词序列中添加至少一个空字符串，所述至少一个空字符串的长度等于所述词序列长度阈值与对应的第一词序列长度的差值。4.根据权利要求2所述的方法，其特征在于，预先构建词向量模型的过程，包括：获取第一文档数据库，所述第一文档数据库中存储有多个样本文档；对于每一个所述样本文档，对该样本文档中各个样本句子进行分词处理，得到各个所述样本句子的第三词序列；对于该样本文档所对应的每一个所述第三词序列，计算该第三词序列中各个词组在该样本文档中出现的概率值；对该第三词序列中概率值不小于概率阈值的各个样本词组进行向量训练，得到相应词向量；将该第三词序列中概率值小于概率阈值的各个样本词组的词向量确定为第一预设词向量；根据各个所述样本文档所对应的全部样本词组及其词向量，构建词向量模...

【专利技术属性】
技术研发人员：王天祎，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人