使用句子提取来概括文本的方法技术

技术编号:23516212 阅读:42 留言:0更新日期:2020-03-18 02:17
一种通过句子提取来概括文本的方法,包括以下步骤:通过基于自然语言处理(NLP)的特征提取器从包含文本的文档中提取句子。由处理器关于每个句子生成一个单词向量集。使用关于每个句子的单词向量集生成关于每个句子的n元向量集和短语‑n向量集。计算代表单词向量集之间相似度的单词分数、代表n元向量集之间相似度的n元分数、和代表短语‑n向量集之间相似度的短语‑n分数。单词、n元和短语‑n分数被组合以计算边缘分数。使用句子的边缘分数从句子中选择文本特征,以输出文档的概要。

Using sentence extraction to generalize text

【技术实现步骤摘要】
【国外来华专利技术】使用句子提取来概括文本的方法
本专利技术涉及自然语言处理(NLP,NaturalLanguageProcessing)领域,特别涉及从文档中提取句子以生成文档概要的技术。
技术介绍
文本概括是自然语言处理(NLP)领域中的一项艰巨任务。随着现在电子可访问文档的数量比以往任何时候都多,大量的文本信息使读者难以快速解读其所有相关信息。文本概括(Textsummarization)工具可以为此类阅读问题提供一种解决方案。文本概括的目的是缩短包含很多段的文本内容,以便读者可以快速地以及有效地识别文本内容的主要信息。一种方法是基于从文本内容中选择最重要的句子。即,所选择的句子没有被修改,保持不变。换句话说,概括的文本不是以重写形式,而是在构成文本段落的所有句子组中选择一个子组的原始句子。但是,确定句子的相对重要性是一个非常复杂的过程,而在当前的技术水平上准确性仍然是一个非常受研究和关注的问题。
技术实现思路
有鉴于此,本专利技术提供了一种用于通过句子提取来概括文本的设备和方法。根据本专利技术的一方面,通过基于NLP的特征提本文档来自技高网...

【技术保护点】
1.一种通过句子提取来概括文本的方法,包括:/n由基于自然语言处理(NLP)的特征提取器,从文本文档中提取多个句子;/n由处理器产生关于每个句子的单词向量集;/n由所述处理器使用关于每个所述句子的单词向量集,以关于每个所述句子生成n元向量集和短语-n向量集,其中n是大于1的正整数;/n由所述处理器计算代表所述单词向量集之间相似度的单词分数、代表所述n元向量集之间相似度的n元分数、代表所述短语-n向量集之间相似度的短语-n分数;/n由所述处理器组合所述单词分数、所述n元分数和所述短语-n分数,以计算代表两个句子之间相似度的边缘分数;/n使用所述句子的所述边缘分数以计算所述句子的重要性的排名;/n...

【技术特征摘要】
【国外来华专利技术】20190923 US 16/578,4271.一种通过句子提取来概括文本的方法,包括:
由基于自然语言处理(NLP)的特征提取器,从文本文档中提取多个句子;
由处理器产生关于每个句子的单词向量集;
由所述处理器使用关于每个所述句子的单词向量集,以关于每个所述句子生成n元向量集和短语-n向量集,其中n是大于1的正整数;
由所述处理器计算代表所述单词向量集之间相似度的单词分数、代表所述n元向量集之间相似度的n元分数、代表所述短语-n向量集之间相似度的短语-n分数;
由所述处理器组合所述单词分数、所述n元分数和所述短语-n分数,以计算代表两个句子之间相似度的边缘分数;
使用所述句子的所述边缘分数以计算所述句子的重要性的排名;
使用预定数量的重要性排名最高的句子来生成文档概要。


2.根据权利要求1所述的方法,其中关于每个所述句子的所述单词向量集具有多个第一特征向量,关于相应句子的所述n元向量集具有多个第二特征向量,每个所述第二特征向量是通过n个所述第一特征向量之和来产生。


3.根据权利要求2所述的方法,其中所述第一特征向量分别被标记为带有正整数的数字序列,每个所述第二特征向量是由连续的所述正整数标记的所述n个第一特征向量之和而生成的。


4.根据权利要求1所述的方法,其中关于每个所述句子的所述单词向量集具有多个第一特征向量,关于相应句子的短语-n向量集具有多个第三特征向量,每个所述第三特征向量是通过将所述n个第一特征向量并置在同一列中而生成的。


5.根据权利要求4所述的方法,其中所述第一特征向量分别被标记为带有正整数的数字序列,每个所述第三特征向量是通过将所述连续正整数标记的所述n个第一特征向量并置在同一列而生成的。


6.根据权利要求1所述的方法,其中所述两个句子的边缘分数是通过以下等式导出的:



其中ES是所述边缘分数,s1是从所述两个句子导出的所述单词分数,s2是从所述两个句子的所述n元向量集导出的所述n元分数,s3是从所述两个句子的所述短语-n向量集导出的所述短语-n分数,K是一个大于或等于n的整数,α、βn和γn为正的,并且α、βn和n的总和等于1。


7.根据权利要求1所述的方法,其中所述单词分数的计算包括:
跨越所述两个句子的所述单词向量集以分别产生第一矩阵和第二矩阵;
从所述第一矩阵和所述第二矩阵导出矩阵乘法;
确定通过对所述矩阵乘法执行奇异值分解(SVD)生成的对角矩阵的对角元素;
将所述对角矩阵的所述对角元素求和以计算所述单词分数。


8.根据权利要求1所述的方法,其中所述n元分数的计算包括:
跨越所述两个句子的所述n元向量集,以分别产生第一矩阵和第二矩阵;
从所述第一矩阵和所述第二矩阵导出矩阵乘法;
确定通过对所述矩阵乘法执行奇异值分解(SVD)生成的对角矩阵的对角元素;
将所述对角矩阵的所述对角元素求和以计算所述n元分数。


9.根据权利要求1所述的方法,其中所述短语-n分数的计算包括:
跨越所述两个句子的所述短语-n向量集,分别生成第一矩阵和第二矩阵;
从所述第一矩阵和所述第二矩阵导出矩阵乘法;
确定通过对所述矩阵乘法执行奇异值分解(SVD)生成的对角矩阵的对角元素;
将所述对角矩阵的所述对角元素求和以计算所述短语-n分数。


10.根据权利要求1所述的方法,其中从所述文档中提取的句子的数量为x,将所述句子标记为s1至sx的数字序列,所述...

【专利技术属性】
技术研发人员:吴裕强刘扬冯超谢谊乒王祖耀雷志斌
申请(专利权)人:香港应用科技研究院有限公司
类型:发明
国别省市:中国香港;81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1