文本的摘要获取方法、装置及电子设备制造方法及图纸

技术编号:25396806 阅读:38 留言:0更新日期:2020-08-25 23:01
本申请公开了一种文本的摘要获取方法、装置及电子设备,方法包括:获得待处理的文本,文本中包括多个文本语句;对文本语句中的字符进行向量转换,以得到字符的字向量及位置向量;将字向量和位置向量利用编码器进行编码,得到编码向量;利用编码器对应的解码器对编码向量进行解码,以得到文本语句对应的初始摘要语句;在初始摘要语句中抽取出满足摘要抽取条件的目标摘要语句。可见,本申请中先对文本语句进行向量转换再利用编解码的方式生成初始摘要语句,由此通过生成式的方式得到能够准确表达文本语句的内容的初始摘要语句,最后再进行语句抽取,基于此所得到的目标摘要语句能够保证语法正确性的同时,能够全面准确的表达文本的内容。

【技术实现步骤摘要】
文本的摘要获取方法、装置及电子设备
本申请涉及文本处理
,尤其涉及一种文本的摘要获取方法、装置及电子设备。
技术介绍
目前,可以利用抽取式算法对文本如文章或小说等的摘要进行获取。但抽取式算法所获得到的摘要虽然能够保证语法的正确性,但无法全面准确的表达文本的内容,导致摘要较为片面。
技术实现思路
有鉴于此,本申请提供一种文本的摘要获取方法、装置及电子设备,如下:一种文本的摘要获取方法,包括:获得待处理的文本,所述文本中包括多个文本语句,所述文本语句由至少一个字符组成;对所述文本语句中的字符进行向量转换,以得到所述字符的字向量及位置向量;将所述字向量和所述位置向量利用编码器进行编码,得到编码向量;利用所述编码器对应的解码器对所述编码向量进行解码,以得到所述文本语句对应的初始摘要语句;在所述初始摘要语句中抽取出满足摘要抽取条件的目标摘要语句。上述方法,优选的,对所述文本语句中的字符进行向量转换,以得到所述字符的字向量及位置向量,包括:对所述文本语句进行处理,以得到所述文本语句对应的字列表,所述字列表中包含所述文本语句中的字符;对所述字列表中的字符,利用预设的bert模型进行处理,以得到所述字符的字向量;对所述字列表中的字符,利用预设的编码函数进行位置编码,以得到所述字符的位置向量。上述方法,优选的,将所述字向量和所述位置向量利用编码器进行编码,得到编码向量,包括:将所述字向量和所述位置向量输入多个至少基于自注意力机制及神经网络构建的编码器,以得到所述编码器输出的所述文本语句对应的编码向量。上述方法,优选的,获得待处理的文本,包括:将待处理的数据进行形式转换,得到初始文本;利用分句分隔符,对所述初始文本进行分句操作,得到多个文本语句;对所述多个文本语句进行语句筛选,得到待处理的文本。上述方法,优选的,对所述文本语句进行筛选,得到待处理的文本,包括:剔除所述多个文本语句中长度小于第一阈值的语句;和/或,如果所述多个文本语句中的语句数量大于第二阈值,删除所述多个文本语句中除目标位置上的目标语句之外的其他语句。上述方法,优选的,在所述多个初始摘要语句中抽取出满足摘要抽取条件的目标摘要语句,包括:对所述多个初始摘要语句中的初始摘要语句至少进行一种评分方式的评分,得到所述初始摘要语句的至少一个分值;至少根据所述至少一个分值,获得所述初始摘要语句的语句分值;在所述多个初始摘要语句中,获得至少一个所述语句分值满足摘要抽取条件的目标摘要语句。上述方法,优选的,所述至少根据所述至少一个分值,获得所述初始摘要语句的语句分值,包括:对所述至少一个分值按照相应的所述评分方式的预设权值,进行加权求和,得到所述初始摘要语句的语句分值。上述方法,优选的,所述摘要抽取条件包括:所述目标摘要语句的长度小于第三阈值,和/或,所述目标摘要语句在所述初始摘要语句中按照所述语句分值从大到小排序在前N位,N为大于或等于1的正整数。一种文本的摘要获取装置,包括:文本获得单元,用于获得待处理的文本,所述文本中包括多个文本语句,所述文本语句由至少一个字符组成;向量转换单元,用于对所述文本语句中的字符进行向量转换,以得到所述字符的字向量及位置向量;向量编码单元,用于将所述字向量和所述位置向量利用编码器进行编码,得到编码向量;向量解码单元,用于利用所述编码器对应的解码器对所述编码向量进行解码,以得到所述文本语句对应的初始摘要语句;语句抽取单元,用于在所述初始摘要语句中抽取出满足摘要抽取条件的目标摘要语句。一种电子设备,包括:存储器,用于存储应用程序及所述应用程序运行所产生的数据;处理器,用于执行所述应用程序,以实现:获得待处理的文本,所述文本中包括多个文本语句,所述文本语句由至少一个字符组成;对所述文本语句中的字符进行向量转换,以得到所述字符的字向量及位置向量;将所述字向量和所述位置向量利用编码器进行编码,得到编码向量;利用所述编码器对应的解码器对所述编码向量进行解码,以得到所述文本语句对应的初始摘要语句;在所述初始摘要语句中抽取出满足摘要抽取条件的目标摘要语句。从上述技术方案可以看出,本申请公开的一种文本的摘要获取方法、装置及电子设备,在获得到待处理的包含多个文本语句的文本之后,对各文本语句中的字符进行向量转换,再对转换得到的字向量和位置向量利用编码器进行编码,得到编码向量,之后再利用编码器对应的解码器对编码向量进行解码,最后在这些初始摘要语句中抽取出满足摘要抽取条件的目标摘要语句。可见,本申请中在对语句进行语句抽取之前,首先对文本语句进行向量转换再利用编解码的方式生成初始摘要语句,由此通过生成式的方式得到能够准确表达文本语句的内容的初始摘要语句,最后再进行语句抽取,基于此所得到的目标摘要语句能够保证语法正确性的同时,能够全面准确的表达文本的内容,避免所得到的摘要内容片面的情况。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例一提供的一种文本的摘要获取方法的流程图;图2-图4分别为本申请实施例一中的部分流程图;图5为本申请实施例二提供的一种文本的摘要获取装置的结构示意图;图6为本申请实施例三提供的一种电子设备的结构示意图;图7为本申请实施例在具体实现中的模型架构图。具体实施方式文本摘要在自然语言处理NLP(NaturalLanguageProcessing)中一直扮演了一个基础且重要的角色。本申请的专利技术人经过研究发现:由于文章的复杂性,目前大部分算法生成的摘要均是以抽取式为主,而抽取式的摘要虽然能够保证语法的正确性,但是在总结性语句上的表现还是不尽人意,例如,通常大部分文章中出现大部分总结性语句的概率较小,而且总结性语句一般都偏长,这就导致了摘要的结果具有结论片面性。虽然生成式的摘要生成算法是在理解原文章的基础上进行总结性描述,得到的是总体性结论,但是生成式的算法对于文章篇幅较长的情况仍无能为力,这主要是因为其本身的特征提取器导致。针对以上问题,本申请的专利技术人经过进一步研究,提出一种能够集成抽取式算法和生成式算法两者的优点的摘要获取方案,最大限度的生成总结性且较全面的摘要语句。具体如下:本申请的技术方案中,首先在获得待处理的包含多个文本语句的文本之后,对文本语句中的字符进行向量转换,以得到字符的字向量及位置向量,再将字向量和位置向量利用编码器进行编码,得到编码向量,之后利用编码器对应的解码器对编码向量进行解码,以得到文本语句对应的初始摘要语句,最后在这些初始摘要语句中抽取出满足摘要本文档来自技高网...

【技术保护点】
1.一种文本的摘要获取方法,包括:/n获得待处理的文本,所述文本中包括多个文本语句,所述文本语句由至少一个字符组成;/n对所述文本语句中的字符进行向量转换,以得到所述字符的字向量及位置向量;/n将所述字向量和所述位置向量利用编码器进行编码,得到编码向量;/n利用所述编码器对应的解码器对所述编码向量进行解码,以得到所述文本语句对应的初始摘要语句;/n在所述初始摘要语句中抽取出满足摘要抽取条件的目标摘要语句。/n

【技术特征摘要】
1.一种文本的摘要获取方法,包括:
获得待处理的文本,所述文本中包括多个文本语句,所述文本语句由至少一个字符组成;
对所述文本语句中的字符进行向量转换,以得到所述字符的字向量及位置向量;
将所述字向量和所述位置向量利用编码器进行编码,得到编码向量;
利用所述编码器对应的解码器对所述编码向量进行解码,以得到所述文本语句对应的初始摘要语句;
在所述初始摘要语句中抽取出满足摘要抽取条件的目标摘要语句。


2.根据权利要求1所述的方法,对所述文本语句中的字符进行向量转换,以得到所述字符的字向量及位置向量,包括:
对所述文本语句进行处理,以得到所述文本语句对应的字列表,所述字列表中包含所述文本语句中的字符;
对所述字列表中的字符,利用预设的bert模型进行处理,以得到所述字符的字向量;
对所述字列表中的字符,利用预设的编码函数进行位置编码,以得到所述字符的位置向量。


3.根据权利要求1或2所述的方法,将所述字向量和所述位置向量利用编码器进行编码,得到编码向量,包括:
将所述字向量和所述位置向量输入多个至少基于自注意力机制及神经网络构建的编码器,以得到所述编码器输出的所述文本语句对应的编码向量。


4.根据权利要求1或2所述的方法,获得待处理的文本,包括:
将待处理的数据进行形式转换,得到初始文本;
利用分句分隔符,对所述初始文本进行分句操作,得到多个文本语句;
对所述多个文本语句进行语句筛选,得到待处理的文本。


5.根据权利要求4所述的方法,对所述文本语句进行筛选,得到待处理的文本,包括:
剔除所述多个文本语句中长度小于第一阈值的语句;
和/或,如果所述多个文本语句中的语句数量大于第二阈值,删除所述多个文本语句中除目标位置上的目标语句之外的其他语句。


6.根据权利要求1或2所述的方法,在所述多个初始摘要语句中抽取出满足摘要抽取条件的目标摘要语句,包括:

【专利技术属性】
技术研发人员:史文丽谭松波
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1