【技术实现步骤摘要】
一种文本摘要生成系统和方法
[0001]本申请涉及提取文本摘要
,具体而言,涉及一种文本摘要生成系统和方法。
技术介绍
[0002]文本摘要获取旨在准确抓取文本关键信息,现有的文本摘要获取方法主要由抽取式和生成式两种,抽取式文本摘要获取是从文本中直接抽取相关的句子,生成式文本摘要获取是基于输入的文本生成一个摘要。随着自然语言处理(Natural Language Processing,NLP)的发展,生成式文本摘要是目前主流的文本摘要获取方式。
[0003]目前大多数的生成式文本摘要获取模型都是采用Transformer框架(一种模型结构),虽然这里模型在不同的文本理解任务中很受欢迎,但该方式存在两个方面的问题:1、在使用过程中表现效果不佳,主要原因在于模型对不同噪音的鲁棒性很差,如数据损坏、分布不均衡等;2、由于基于Transformer(Transformer
‑
based)的句向量由预训练模型的字向量或词向量组合而成,因而会导致句向量的全局语义弱,而文本摘要的获取又是一个非常需要全局语义
【技术保护点】
【技术特征摘要】
1.一种文本摘要生成系统,其特征在于,该系统包括:文本增强模块,用于对原始文本以句级别分别进行两次数据增强,得到两个文本增强数据;文本编码模块,用于结合预先确定的过程损失值对所述两个文本增强数据分别进行文本编码,得到对应的两个文本表征数据;文本解码模块,用于结合所述过程损失值对所述两个文本表征数据分别进行文本解码,得到对应的两个解码文本;以及摘要生成模块,用于选择所述两个解码文本中的一者作为文本摘要。2.根据权利要求1所述的文本摘要生成系统,其特征在于,该系统还包括:内容表征模块,用于接收所述两个文本表征数据并将所述两个文本表征数据传送至文本解码模块。3.根据权利要求2所述的文本摘要生成系统,其特征在于,该系统还包括:损失值计算模块,用于根据样本文本和目标摘要计算得到所述过程损失值;其中,所述文本增强模块还用于对样本文本以句级别分别进行两次数据增强,得到两个样本增强数据;所述文本编码模块还用于对所述两个样本增强数据分别进行文本编码,得到对应的两个样本表征数据;所述内容表征模块还用于接收所述两个样本表征数据并将所述两个样本表征数据传送至所述文本解码模块;所述文本解码模块还用于对所述两个样本表征数据分别进行文本解码,得到对应的两个解码样本;所述损失值计算模块还用于根据所述两个解码样本和预先确定的目标摘要计算所述过程损失值。4.根据权利要求3所述的文本摘要生成系统,其特征在于,所述损失值计算模块还用于:根据所述两个解码文本中的第一解码文本和所述目标摘要利用自监督对比学习算法得到第一中间损失值;根据所述两个解码文本中的第二解码文本和所述目标摘要利用自监督对比学习算法得到第二中间损失值;以及将所述第一中间损失值和所述第二中间损失值叠加得到所述过程损失值。5.根据权利要求3所述的文本摘要生成系统,其特征在于,所述文本增强模块以句级别进行数据增强的方式包括:从所述原始文本或所述样本文本中随机选取并复制一个或多个句子,将复制后的一个或多个句子随机插入所述原始文本中;从所述原始文本或所述样本文本中随机选取一个句子,并变换所选取句子的位置;从所述原始文本或所述样本文本中随机删除一个句子;以及从所述原始文本或...
【专利技术属性】
技术研发人员:范凌,王喆,
申请(专利权)人:特赞上海信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。