文本摘要抽取方法、装置、设备及存储介质制造方法及图纸

技术编号:32787438 阅读:15 留言:0更新日期:2022-03-23 19:47
本公开实施例涉及一种文本摘要抽取方法、装置、设备及存储介质。本公开实施例通过对文本进行分句处理,获得文本中的语句和标题;提取语句中的实体,确定语句中的实体占文本中的实体的比例;基于该比例,确定语句的第一得分;基于语句与标题之间的语义相似度,确定语句的第二得分;基于第一得分和第二得分,确定用于形成摘要的语句。本公开实施例通过建模文本语句实体与文本实体,文本语句与文本标题的相关性,减少了文本摘要的冗余性,提高了文本摘要表达文本信息的准确性,提高了用户的阅读体验。验。验。

【技术实现步骤摘要】
文本摘要抽取方法、装置、设备及存储介质


[0001]本公开实施例涉及自然语言处理领域,尤其涉及一种文本摘要抽取方法、装置、设备及存储介质。

技术介绍

[0002]文本摘要是将文本或文本集合转换为包含关键信息的简短摘要,能够帮助人类理解概括自然语言文本,并更加快速、准确、全面地获取重要信息。
[0003]近几年,将神经网络模型应用在文本摘要上取得很大发展,目前基于神经网络的摘要抽取问题,往往被建模为序列标注和句子排序两类任务,这种方式生成的摘要不够准确,也没有考虑到摘要的冗余性和多样性,生成的摘要无法全面表达文本信息。因此,亟需一种文本摘要抽取方法来同时满足摘要抽取的准确性、全面性要求,提高用户的阅读体验。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种文本摘要抽取方法、装置、设备及存储介质。
[0005]本公开实施例的第一方面提供了一种文本摘要抽取方法,该方法包括:
[0006]对文本进行分句处理,获得文本中的语句和标题;
[0007]提取语句中的实体,确定语句中的实体占文本中的实体的比例;
[0008]基于该比例,确定语句的第一得分;
[0009]基于语句与标题之间的语义相似度,确定语句的第二得分;
[0010]基于第一得分和第二得分,确定用于形成摘要的语句。
[0011]本公开实施例的第二方面提供了一种文本摘要抽取装置,该装置包括:
[0012]获取模块,用于对文本进行分句处理,获得文本的语句和标题;
[0013]提取模块,用于提取语句中的实体,确定语句中的实体占文本中的实体的比例;
[0014]第一确定模块,用于基于该比例,确定语句的第一得分;
[0015]第二确定模块,用于基于语句与标题之间的语义相似度,确定语句的第二得分;
[0016]第三确定模块,用于基于第一得分和第二得分,确定用于形成摘要的语句。
[0017]本公开实施例的第三方面提供了一种计算设备,该设备包括存储器和处理器,其中,存储器中存储有计算机程序,当计算机程序被处理器执行时,可以实现上述第一方面的方法。
[0018]本公开实施例的第四方面提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,当该计算机程序被处理器执行时,可以实现上述第一方面的方法。
[0019]本公开实施例提供的技术方案与现有技术相比具有如下优点:
[0020]本公开实施例,通过对文本进行分句处理,获得文本中的语句和标题;提取语句中的实体,确定语句中的实体占文本中的实体的比例;基于该比例,确定语句的第一得分;基于语句与标题之间的语义相似度,确定语句的第二得分;基于第一得分和第二得分,确定用
于形成摘要的语句。本公开实施例通过建模文本语句实体与文本实体,文本语句与文本标题的相关性,减少了文本摘要的冗余性,提高了文本摘要表达文本信息的准确性,提高了用户的阅读体验。
附图说明
[0021]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0022]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本公开实施例提供的一种文本摘要抽取模型训练方法的流程图;
[0024]图2是本公开实施例提供的一种文本摘要抽取方法的流程图;
[0025]图3是本公开实施例提供的另一种文本摘要抽取方法的流程图;
[0026]图4是本公开实施例提供的一种文本摘要抽取装置的结构示意图。
具体实施方式
[0027]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
[0028]在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
[0029]图1是本公开实施例提供的一种文本摘要抽取模型训练方法的流程图,该方法可以由一种计算设备来执行,该计算设备可以理解为任意一种具有计算功能和处理能力的设备。如图1所示,本实施例提供的文本摘要抽取模型训练方法包括如下步骤:
[0030]步骤101、将文本和文本对应的摘要标签输入文本摘要抽取模型中,对文本进行分句处理,获得文本中的语句和标题。
[0031]本公开实施例所称摘要标签可以通过对每个文本进行摘要标注,得到每个文本的摘要标签,进而得到多个训练样本,每个训练样本包括一个文本样本和该文本样本的摘要标签。
[0032]在本公开实施例中,将多个训练样本按照预设的比例划分为训练集、验证集以及测试集,基于训练集训练该文本摘要抽取模型,在验证集上验证该模型的准确性。
[0033]本公开实施例所称的对文本进行分句处理,可以理解为将文本的标题和正文划分开,并将正文语句划分为多个单独的语句,获得文本中的语句和标题。
[0034]在本公开的实施例中,在对文本进行分句处理之前,为了减少不应该出现在摘要中的一些信息,降低文本噪声,还可以对文本进行预处理,预处理的方式包括删除文本中的特殊符号信息,和/或删除符合预设正则表达式的内容。例如,删除文本中类似于“【据XXX网站XX年XX月XX日报道】”特殊符号的信息,因为该信息不应该出现在摘要句中。例如,对于文本中出现的作者、来源、发布时间等信息,可以通过正则表达式去除。其中,正则表达式为现
有成熟技术,这里不再赘述。
[0035]步骤102、对标题和语句进行编码处理,得到标题的标题向量和语句中每个字符的字符向量以及语句的第一向量。
[0036]本公开实施例中,可以采用基于摘要转换器的双向编码表征(Bidirectional Encoder Representations from Transformers Summary,BertSum)模型对文本语句进行编码处理。该模型可以通过在大规模语料上运行自监督学习的方法,学习到大量语言、句法、语义信息,可以通过双向表示输出融合上下文语义的文本的特征向量。该模型在基于转换器的双向编码表征(Bidirectional Encoder Representations from Transformers,BERT)模型的基础上对结构做了更改,让其更适合文本摘要的任务。
[0037]具体的,BertSum模型对输入层进行了修改,以便于对多条句子进行编码,在每个句子开头加一个[CLS]标记,在末尾加一个[SEP]标记,使用[CLS]表示每一个句子对应的语义表示。其中,CLS(classification)表示分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本摘要抽取方法,其特征在于,所述方法包括:对文本进行分句处理,获得所述文本中的语句和标题;提取所述语句中的实体,确定所述语句中的实体占所述文本中的实体的比例;基于所述比例,确定所述语句的第一得分;基于所述语句与所述标题之间的语义相似度,确定所述语句的第二得分;基于所述第一得分和所述第二得分,确定用于形成摘要的语句。2.根据权利要求1所述的方法,其特征在于,基于所述比例,确定所述语句的第一得分,包括:将所述比例作为所述语句的第一得分。3.根据权利要求1所述的方法,其特征在于,所述基于所述语句与所述标题之间的语义相似度,确定所述语句的第二得分,包括:对所述标题和所述语句进行编码处理,得到所述标题的标题向量和所述语句中每个字符的字符向量以及所述语句的第一向量;分别计算每个字符向量与所述标题向量之间的第一相似度;基于所述语句中包含的字符的所述第一相似度,确定所述语句的第二向量;基于所述第二向量,确定所述语句的第二得分。4.根据权利要求3所述的方法,其特征在于,所述基于所述语句中包含的字符的所述第一相似度,确定所述语句的第二向量,包括:基于所述语句中包含的字符的第一相似度,确定所述语句中的字符的权重;对所述语句中包含的字符的权重与所述字符的字符向量进行加权求和处理,得到所述语句的第二向量。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述基于所述第一得分和所述第二得分,确定用于形成摘要的语句,包括:针对所述文本中的每个语句,对所述语句的第一得分和第二得分进行加权求和处理,得到所述语句的第三得分;将所述文本中第三得分大于预设阈值的语句,确定为用于形成摘要的语句。6.根据权利要求5所述的方法,其特征在于,所述基于所述第一得分和所述第二得分,确定用于形成摘要的语句之后,所述方法包括:将所述第三得分最高的语句作为摘要的首句;针对剩余语句中的每个语句,计算所述语句的第一向量与所述首句第一向量之间的第二相似度;对所述语句的第三得分和所述第二相似度进行加权求和处理,得到第一求和结果;基于所述剩余语句的所述第一求和结果的排序,确定所述剩余语句在所述摘要中的位置;其中剩余语句是指所述用于形成摘要的语句中除所述首句之外的语句。7.一种文本摘要抽取装置,其特征在于,所述装置包括:获取模块,用于对文本进行分句处理,获得所述文本的语句和标题;提取模块,用于提取所述语句中的实体,确定所述语句中的实体占所述文本中的实体的比例;
第一确定模块,用于基于所述比例,确定...

【专利技术属性】
技术研发人员:张佳旭王宇琪郭建彬郝保郭昭乾曹家罗引王磊
申请(专利权)人:北京中科闻歌科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1