用于可控文本概述的系统和方法技术方案

技术编号：37514284 阅读：6 留言：0更新日期：2023-05-12 15:35

本文描述的实施方案提供了一种灵活可控的概述系统，其允许用户控制概述的生成而无需手动编辑或编写概述，例如无需用户在各种程度下实际添加或删除某些信息。具体地，概述系统通过关键字操纵来执行可控概述。神经网络模型进行学习以生成以关键字和源文档为条件的概述，使得在测试时用户可以通过关键字接口与神经网络模型交互，潜在地实现多因素控制。潜在地实现多因素控制。潜在地实现多因素控制。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于可控文本概述的系统和方法
[0001]专利技术人：J
·
何、W
·
克里辛斯基和B
·
麦卡恩
[0002]相关参考
[0003]本申请要求2020年12月17日提交的美国专利申请第17/125,468号和2020年8月28日提交的美国临时申请第63/071,571号的优先权，其全部内容通过引用明确地并入本文。

[0004]本申请总体涉及机器学习模型和神经网络，并且更具体地涉及一种可控文本概述框架。

技术介绍

[0005]文本概述将文档压缩成短段落或句子作为文档的“概述”，同时预期概述保存来自文档的核心信息。一些现有的概述系统从文档中提取重要的句子以形成概述，而一些其他现有的概述系统通过制定他们自己选择的句子从头开始产生概述。这些概述系统产生的概述仅依赖于输入文档，因此经常导致输入文档的概述的一个版本。概述的通用版本有时可能无法捕获请求概述的用户的不同兴趣。
附图说明
[0006]图1A示出了说明根据本文描述的实施方案的概述系统的示例神经网络模型图的框图。
[0007]图1B示出了说明根据本文描述的实施方案的在测试时概述系统的控制工作流程的框图。
[0008]图2示出了根据本文描述的实施方案的示出可控制的基于概述关键字的模型的推断阶段的示例图。
[0009]图3是根据一些实施方案的用于实现概述系统的计算装置的简化图。
[0010]图4是示出根据本文所述的一些实施方案的用于训练图2所示的基于关键...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种对文档进行可控文本概述的方法，所述方法包括：在通信接口处接收输入文本文档；通过由多个文档和多个相应关键字的训练数据集训练的语言模型，通过序列标记一个或多个关键字，从所述输入文本文档提取所述一个或多个关键字；经由用户接口接收控制令牌序列和与待生成的概述的特征有关的一个或多个控制参数；基于接收到的控制令牌序列，修改所述一个或多个关键字；和根据所述一个或多个控制参数，基于经修改的一个或多个关键字，通过所述语言模型生成所述输入文本文档的概述。2.根据权利要求1所述的方法，其中所述概述的特征包括如下任意一项：所述输入文本文档中提及的实体；所述概述的目标长度；和所述输入文本文档的类型。3.根据权利要求2所述的方法，其中所述一个或多个控制参数包括对应于所述输入文本文档的类型的提示。4.根据权利要求3所述的方法，其中所述提示选自如下的组：概述研究论文的贡献的第一概述前缀；概述专利文档的发明目的的第二概述前缀；和以引导式问答格式概述所述输入文本文档的第三概述前缀。5.根据权利要求1所述的方法，还包括：从所述接收到的控制令牌序列生成经修改的关键字的第一集合和第一控制参数；根据所述第一控制参数，基于所述经修改的关键字的第一集合，通过所述语言模型生成所述输入文本文档的概述的第一版本；从所述接收到的控制令牌序列生成经修改的关键字的第二集合和第二控制参数；和根据所述第二控制参数，基于所述经修改的关键字的第二集合，通过所述语言模型生成所述输入文本文档的概述的第二版本。6.根据权利要求1所述的方法，其中所述语言模型是通过如下训练的：将关键字序列前置于训练源文档，通过特殊令牌分开；向所述语言模型输入具有所述关键字序列的所述训练源文档；通过所述语言模型生成输出概述；和通过最大化以所述训练源文档和所述关键字序列为条件的输出概述的条件概率，更新所述语言模型。7.根据权利要求6所述的方法，还包括：在训练期间，从所述关键字序列随机地丢弃关键字的子集。8.一种对文档进行可控文本概述的系统，所述系统包括：通信接口，其接收输入文本文档；存储器，其存储由多个文档和多个相应关键字的训练数据集训练的语言模型；和一个或多个硬件处理器，所述硬件处理器：经由所述语言模型，通过序列标记一个或多个关键字，从所述输入文本文档提取所述
一个或多个关键字；经由所述通信接口，接收控制令牌序列和与待生成的概述的特征有关的一个或多个控制参数；基于接收到的控制令牌序列，修改所述一个或多个关键字；和根据所述一个或多个控制参数，基于经修改的一个或多个关键字，通过所述语言模型生成所述输入文本文档的概述。9.根据权利要求8所述的系统，其中所述概述的特征包括如下任意一项：所述输入文本文档中提及的实体；所述概述的目标长度；和所述输入文本文档的类型。10.根据权利要求9所述的系统，其中所述一个或多个控制参数包括对应于所述输入文本文档的类型的提示。11.根据权利要求10所述的系统，其中所述提示选自如下的组：概述研究论文贡献的第一概述前缀；概述专利文档的发明目的的第二概述前缀；和以引导式问答格式概述所述输入文本文档的第三概述前缀。12.根据权利要求8所述的系...

【专利技术属性】
技术研发人员：J，
申请(专利权)人：硕动力公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人