当前位置: 首页 > 专利查询>硕动力公司专利>正文

用于可控文本概述的系统和方法技术方案

技术编号:37514284 阅读:6 留言:0更新日期:2023-05-12 15:35
本文描述的实施方案提供了一种灵活可控的概述系统,其允许用户控制概述的生成而无需手动编辑或编写概述,例如无需用户在各种程度下实际添加或删除某些信息。具体地,概述系统通过关键字操纵来执行可控概述。神经网络模型进行学习以生成以关键字和源文档为条件的概述,使得在测试时用户可以通过关键字接口与神经网络模型交互,潜在地实现多因素控制。潜在地实现多因素控制。潜在地实现多因素控制。

【技术实现步骤摘要】
【国外来华专利技术】用于可控文本概述的系统和方法
[0001]专利技术人:J
·
何、W
·
克里辛斯基和B
·
麦卡恩
[0002]相关参考
[0003]本申请要求2020年12月17日提交的美国专利申请第17/125,468号和2020年8月28日提交的美国临时申请第63/071,571号的优先权,其全部内容通过引用明确地并入本文。


[0004]本申请总体涉及机器学习模型和神经网络,并且更具体地涉及一种可控文本概述框架。

技术介绍

[0005]文本概述将文档压缩成短段落或句子作为文档的“概述”,同时预期概述保存来自文档的核心信息。一些现有的概述系统从文档中提取重要的句子以形成概述,而一些其他现有的概述系统通过制定他们自己选择的句子从头开始产生概述。这些概述系统产生的概述仅依赖于输入文档,因此经常导致输入文档的概述的一个版本。概述的通用版本有时可能无法捕获请求概述的用户的不同兴趣。
附图说明
[0006]图1A示出了说明根据本文描述的实施方案的概述系统的示例神经网络模型图的框图。
[0007]图1B示出了说明根据本文描述的实施方案的在测试时概述系统的控制工作流程的框图。
[0008]图2示出了根据本文描述的实施方案的示出可控制的基于概述关键字的模型的推断阶段的示例图。
[0009]图3是根据一些实施方案的用于实现概述系统的计算装置的简化图。
[0010]图4是示出根据本文所述的一些实施方案的用于训练图2所示的基于关键字的概述模型的方法的简化逻辑流程图。
[0011]图5是示出根据本文所述的一些实施方案的用于在推断阶段期间使用图2所示的基于关键字的模型来生成受控概述的方法的简化逻辑流程图。
[0012]图6提供了示出根据本文所述的一个实施方案的基于不同的用户控制的配置参数生成的结果概述的定性示例。
[0013]图7

14提供了示出根据本文所述的一些实施方案的与现有模型相比本文所述的基于关键字的模型的示例测试性能的示例数据图。
[0014]在附图和附录中,具有相同标号的元件具有相同或相似的功能。
具体实施方式
[0015]现有的概述系统经常产生只依赖于输入文档的概述,因此经常导致输入文档的概
述的一个版本。概述的通用版本有时可能无法捕获请求概述的用户的不同兴趣。例如如果文档包括关于体育新闻的新闻文章,则用户可能希望概述集中在特定的运动员上,或者在给定用户兴趣或可用时间的情况下集中在不同长度的概述上。对概述的不同版本的用户偏好也可以扩展到其他控制因素,例如主题或某些部分(当概述科学论文或书籍时)。
[0016]考虑到生成反映用户偏好的文档的定制概述的需要,本文描述的实施方案提供了一种灵活可控的概述系统,其允许用户控制概述的生成而无需手动编辑或编写概述,例如无需用户在各种程度下实际添加或删除某些信息。具体地,概述系统通过关键字操纵来执行可控概述。学习神经网络模型以生成以关键字和源文档为条件的概述,使得在测试时用户可以通过关键字接口与神经网络模型交互,潜在地实现多因素控制。
[0017]例如可控概述系统允许用户控制和操纵来自模型的概述。用户可经由用户界面以关键字集合或描述性提示的形式输入控制令牌,其可用于生成反映源文章的用户偏好的定制概述。在训练时,模型学习以源文档和用作外部指导的关键字为条件来预测概述。在推断期间,作为约束解码的目标前缀的关键字和可选提示(例如由用户输入)被组合为控制令牌,以在概述生成中传达用户偏好。
[0018]在一个实施方案中,关键字和提示的用户可以是互补的。例如用户可以输入或选择实体名称作为关键字,或者改变关键字的数量以分别控制实体和长度。可以仅使用关键字作为可以从训练概述中识别的附加输入来训练模型。过程既不需要额外的人为注释,也不需要预先定义用于训练的控制方面,但是对于实现广泛范围的文本操纵是相当灵活的。相反,大多数现有的概述系统或者不允许用户输入来控制概述过程,或者需要预先定义的“控制代码”(参见Fan等人2018年发表于Proceedings of the 2nd Workshop on Neural machine Translation and Generation的Controllable abstractive summarization;Liu等人2018年发表于Proceedings of EMNLP的Controlling length in abstractive summarization using a convolutional neural network;Keskar等人2019年发表于arXiv preprint arXiv:1909.05858的Ctrl:A conditional transformer language model for controllable generation),在此通过引用将其全部明确地并入本文),这进而要求系统收集用于训练的注释并且不能推广到未见的控制方面,例如在测试时的不同类型的文章或不同类型的控制命令。
[0019]如本文所使用的,术语“提示”用来指用作约束概述系统的解码的目标前缀的预定义文本序列。例如提示“本文的主要贡献是:(1)”可以用于约束解码,以概述科学论文的贡献列表。
[0020]如本文所使用的,术语“网络”可以包括任何基于硬件或软件的框架,其包括任何人工智能网络或系统、神经网络或系统和/或在其上或随其实现的任何训练或学习模型。
[0021]如本文所使用的,术语“模块”可以包括执行一个或多个功能的基于硬件或软件的框架。在一些实施方案中,模块可以在一个或多个神经网络上实现。
[0022]可控概述概览
[0023]图1A示出了说明根据本文描述的实施方案的概述系统的示例神经网络模型图100a的框图。传统上,训练无约束神经概述方法来学习条件分布p(y/x),其中x和y分别表示诸如文章和概述的源文档。所生成的概述仅依赖于文档x而不涉及人为。为了控制输出概述,可以使用诸如关键字z的附加控制令牌来表示用户偏好。因此,图100a示出了在训练阶
段,用于可控概述的神经网络模型被学习以对概率p(y/x,z)建模,其中x表示源文档文章110,y表示生成的概述130,而z表示从文章110中提取的关键字120。因此,概率p(y/x,z)表示以源文档110和关键字120为条件的概述分布。
[0024]图1B示出了根据本文描述的实施方案的框图100b,其示出了在测试时概述系统的控制工作流程。图100b示出了在推断阶段,关键字操纵机构用于桥接用户和关键字接口,称为“控制中心”140。具体地,从例如文章110的源文档中自动提取关键字120a,其可以(可选地)在控制中心140的用户界面处呈现给用户150。然后,用户150可以通过控制中心140与自动关键字120a交互以插入控制令牌z。
[0025]在一个实施方案中,控制令牌z可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种对文档进行可控文本概述的方法,所述方法包括:在通信接口处接收输入文本文档;通过由多个文档和多个相应关键字的训练数据集训练的语言模型,通过序列标记一个或多个关键字,从所述输入文本文档提取所述一个或多个关键字;经由用户接口接收控制令牌序列和与待生成的概述的特征有关的一个或多个控制参数;基于接收到的控制令牌序列,修改所述一个或多个关键字;和根据所述一个或多个控制参数,基于经修改的一个或多个关键字,通过所述语言模型生成所述输入文本文档的概述。2.根据权利要求1所述的方法,其中所述概述的特征包括如下任意一项:所述输入文本文档中提及的实体;所述概述的目标长度;和所述输入文本文档的类型。3.根据权利要求2所述的方法,其中所述一个或多个控制参数包括对应于所述输入文本文档的类型的提示。4.根据权利要求3所述的方法,其中所述提示选自如下的组:概述研究论文的贡献的第一概述前缀;概述专利文档的发明目的的第二概述前缀;和以引导式问答格式概述所述输入文本文档的第三概述前缀。5.根据权利要求1所述的方法,还包括:从所述接收到的控制令牌序列生成经修改的关键字的第一集合和第一控制参数;根据所述第一控制参数,基于所述经修改的关键字的第一集合,通过所述语言模型生成所述输入文本文档的概述的第一版本;从所述接收到的控制令牌序列生成经修改的关键字的第二集合和第二控制参数;和根据所述第二控制参数,基于所述经修改的关键字的第二集合,通过所述语言模型生成所述输入文本文档的概述的第二版本。6.根据权利要求1所述的方法,其中所述语言模型是通过如下训练的:将关键字序列前置于训练源文档,通过特殊令牌分开;向所述语言模型输入具有所述关键字序列的所述训练源文档;通过所述语言模型生成输出概述;和通过最大化以所述训练源文档和所述关键字序列为条件的输出概述的条件概率,更新所述语言模型。7.根据权利要求6所述的方法,还包括:在训练期间,从所述关键字序列随机地丢弃关键字的子集。8.一种对文档进行可控文本概述的系统,所述系统包括:通信接口,其接收输入文本文档;存储器,其存储由多个文档和多个相应关键字的训练数据集训练的语言模型;和一个或多个硬件处理器,所述硬件处理器:经由所述语言模型,通过序列标记一个或多个关键字,从所述输入文本文档提取所述
一个或多个关键字;经由所述通信接口,接收控制令牌序列和与待生成的概述的特征有关的一个或多个控制参数;基于接收到的控制令牌序列,修改所述一个或多个关键字;和根据所述一个或多个控制参数,基于经修改的一个或多个关键字,通过所述语言模型生成所述输入文本文档的概述。9.根据权利要求8所述的系统,其中所述概述的特征包括如下任意一项:所述输入文本文档中提及的实体;所述概述的目标长度;和所述输入文本文档的类型。10.根据权利要求9所述的系统,其中所述一个或多个控制参数包括对应于所述输入文本文档的类型的提示。11.根据权利要求10所述的系统,其中所述提示选自如下的组:概述研究论文贡献的第一概述前缀;概述专利文档的发明目的的第二概述前缀;和以引导式问答格式概述所述输入文本文档的第三概述前缀。12.根据权利要求8所述的系...

【专利技术属性】
技术研发人员:J
申请(专利权)人:硕动力公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1