一种长文本的摘要生成方法技术

技术编号:39870611 阅读:3 留言:0更新日期:2023-12-30 12:58
本说明书提供一种长文本的摘要生成方法

【技术实现步骤摘要】
一种长文本的摘要生成方法、装置、设备及存储介质


[0001]本说明书涉及语言处理
,尤其涉及一种长文本的摘要生成方法

装置

设备及存储介质


技术介绍

[0002]在当今信息爆炸的时代,人们面临着大量的文本和信息,对于信息的获取和处理需求不断提升,自然语言处理和文本摘要逐渐成为计算机科学领域的重要研究方向

传统的文本摘要方法通常包括手动文本摘要或自动文本摘要方法,其中,自动文本摘要方法又包括基于统计的抽取式摘要和生成式摘要

抽取式摘要方法通过提取文本中的关键句子或短语来生成摘要,生成式摘要方法则利用语言模型生成新的句子来构建摘要

[0003]然而,这些方法在处理如长篇小说

学术论文等长文本时仍面临挑战

由于长文本的具有文本长度较长和复杂性较高等特点,使用传统的手动文本摘要往往存在耗时和主观性强的问题

而传统的抽取式和生成式摘要则是难以捕捉到全局的语义和主题信息,存在和信息丢失的问题,容易导致生成的摘要不够准确和连贯

因此,如何快速提取长文本的核心内容,形成完整的摘要,同时保证摘要的准确性和连贯性,成为亟待解决的问题


技术实现思路

[0004]为克服相关技术中存在的问题,本说明书提供了一种长文本的摘要生成方法

装置

设备及存储介质

[0005]根据本说明书实施例的第一方面,提供一种长文本的摘要生成方法,所述方法包括:
[0006]对长文本进行预处理,得到拆分后的多个单位文本,并根据单位文本在长文本中的位置依次对所述多个单位文本进行编号;
[0007]分别生成所述多个单位文本对应的文本向量,并对生成的文本向量进行聚类处理,得到多个文本向量集合;
[0008]在所述多个文本向量集合中分别选取对应的中心文本向量,并将各个单位文本向量集合对应的中心文本向量输入大语言模型,生成所述各个中心文本向量对应的摘要文本;
[0009]根据所述中心文本向量编号依次合并所述各个中心文本向量对应的摘要文本,得到所述长文本的最终摘要文本

[0010]根据本说明书实施例的第二方面,提供一种长文本的摘要生成装置,所述装置包括:
[0011]拆分单元,用于对长文本进行预处理,得到拆分后的多个单位文本,并根据单位文本在长文本中的位置依次对所述多个单位文本进行编号;
[0012]集合单元,用于分别生成所述多个单位文本对应的文本向量,并对生成的文本向量进行聚类处理,得到多个文本向量集合;
[0013]处理单元,用于在所述多个文本向量集合中分别选取对应的中心文本向量,并将各个单位文本向量集合对应的中心文本向量输入大语言模型,生成所述各个中心文本向量对应的摘要文本;
[0014]合并单元,用于根据所述中心文本向量编号依次合并所述各个中心文本向量对应的摘要文本,得到所述长文本的最终摘要文本

[0015]根据本说明书实施例的第三方面,提供一种电子设备,包括:
[0016]处理器;
[0017]用于存储处理器可执行指令的存储器;
[0018]其中,所述处理器通过运行所述可执行指令以实现如上述第一方面的实施例中所述的方法

[0019]根据本说明书实施例的第四方面,提供一种机器可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述第一方面的实施例中所述方法的步骤

[0020]本说明书的实施例提供的技术方案可以包括以下有益效果:
[0021]在本说明书实施例中,通过将长文本拆分为多个单位文本,再将多个单位文本进行编号后使用向量化和聚类算法将相似的单位文本聚集在一起,更加全面地覆盖长文本中的所有信息,保证了摘要的完整性,同时确保了每个聚类中的单位文本具有相似的主题和语义,提高摘要文本的准确性,通过借助大语言模型生成每个文本向量集合中的中心文本向量的摘要文本,最后根据编号将摘要文本进行合并,充分利用了大语言模型的上下文理解能力和生成能力,实现快速提取摘要文本的同时,更好地捕捉摘要文本的整体语义,进一步提升摘要文本的准确性和连贯性

[0022]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书

附图说明
[0023]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理

[0024]图1是本说明书根据一示例性实施例示出的一种长文本的摘要生成方法的流程图

[0025]图2是本说明书根据一示例性实施例示出的一种聚类结果可视化的示意图

[0026]图3是本说明书根据一示例性实施例示出的一种长文本的摘要生成方法的时序图

[0027]图4是本说明书根据一示例性实施例示出的一种长文本的摘要生成装置的框图

[0028]图5是本说明书根据一示例性实施例示出的一种电子设备的结构示意图

具体实施方式
[0029]这里将详细地对示例性实施例进行说明,其示例表示在附图中

下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素

以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式

相反,它们仅是与如所附权利要求书中所详述的

本说明书的一些方面相一致的装置和方法的例子

[0030]在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书

在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义

还应当理解,本文中使用的术语“和
/
或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合

[0031]应当理解,尽管在本说明书可能采用术语第一

第二

第三等来描述各种信息,但这些信息不应限于这些术语

这些术语仅用来将同一类型的信息彼此区分开

例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息

取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0032]首先,对本说明书一个或多个实施例涉及的名词术语进行解释

[0033]文本摘要:是指对文本进行提炼和概括,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种长文本的摘要生成方法,其特征在于,包括:对长文本进行预处理,得到拆分后的多个单位文本,并根据单位文本在长文本中的位置依次对所述多个单位文本进行编号;分别生成所述多个单位文本对应的文本向量,并对生成的文本向量进行聚类处理,得到多个文本向量集合;在所述多个文本向量集合中分别选取对应的中心文本向量,并将各个单位文本向量集合对应的中心文本向量输入大语言模型,生成所述各个中心文本向量对应的摘要文本;根据所述中心文本向量编号依次合并所述各个中心文本向量对应的摘要文本,得到所述长文本的最终摘要文本
。2.
根据权利要求1所述的方法,其特征在于,所述单位文本根据预设的分割标准进行拆分,所述分割标准包括:章节

段落

固定字数
。3.
根据权利要求1所述的方法,其特征在于,所述分别生成所述多个单位文本对应的文本向量,包括:将所述多个单位文本依次输入词嵌入模型,分别生成所述多个单位文本对应的文本向量;判断生成的所述多个单位文本对应的文本向量的向量维度,若所述向量维度低于设定维度阈值,则输出所述多个单位文本对应的文本向量;若所述向量维度高于设定维度阈值,则对所述多个单位文本对应的文本向量进行降维,并输出降维后的所述多个单位文本对应的文本向量
。4.
根据权利要求1所述的方法,其特征在于,所述对生成的文本向量进行聚类处理,得到多个文本向量集合,包括:确定聚类中心个数,将生成的多个文本向量输入
K

means
聚类模型进行迭代,得到多个文本向量集合
。5.
根据权利要求1所述的方法,其特征在于,在得到多个文本向量集合后,所述方法还包括:建立三维坐标,将所述多个文本向量可视化为所...

【专利技术属性】
技术研发人员:张华
申请(专利权)人:上海羚数智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1