跨文档智能写作和处理助手制造技术

技术编号:33762739 阅读:20 留言:0更新日期:2022-06-12 14:12
机器学习、人工智能和其他计算机实现的方法用来标识文档中各种语义上重要的块、用适当的数据类型和语义角色自动标记它们,并且使用该增强的信息来协助作者以及支持下游过程。块位置、数据类型和语义角色经常可以从以下自动被确定:这里所称的“上下文”,即它们的格式化、结构和内容的组合;相邻或附近的内容中的那些;文档中的总体出现模式;以及所有这些事物跨文档的相似性(主要但不仅仅在相同文档集中的文档之中)。相似性不限于精确或模糊的字符串或属性比较,而是可以包括自然语言语法结构的相似性、ML(机器学习)技术,诸如文字、块和其他嵌入的测量相似性,以及先前所标识的块的数据类型和语义角色的相似性。据类型和语义角色的相似性。据类型和语义角色的相似性。

【技术实现步骤摘要】
【国外来华专利技术】跨文档智能写作和处理助手
[0001]相关申请的交叉引用
[0002]本申请根据35U.S.C.
§
119(e)要求提交于2019年9月16日的美国临时专利申请序列号62/900,793,“Cross

Document Intelligent Authoring and Processing Assistant”的优先权。上述所有内容的主题通过引用全部并入本文。


[0003]本公开一般涉及用于AI自我监督地创建分层语义标记的文档和/或用于协助写作和处理这样的文档的方法和设备。

技术介绍

[0004]许多业务创建了多个文档,这些文档非常相似,即使它们每次都是定制的。例如,保险办公室可以针对具体种类的保险产生许多建议,但每个建议都必须针对具体客户的需求进行裁制。这些文档可以被认为具有相同“类型”,因为它们具有相似的文本(并且可能还有图像)内容(反映相似的目的和主题)、大单元(诸如节段)的相似选择和布置,并且经常甚至具有相似的几何排版和格式化特性。
[0005]一些类型的文档是广泛地被知晓和使用的,但许多不是。许多是对具体业务、市场或应用特定的,并且新文档是为新情况创建的。可以被称为“写作者”或“编辑”的用户通常通过复制相同类型的较早文档并且然后按需要进行修改(例如通过人工编辑或替换某些内容块)来创建具体类型的新文档(有时被称为“目标文档”)。
[0006]在当前的实践中,文字处理通常只在需要实现格式化的情况下才会标识块:例如,标题、脚注和数字可被显式标出以便获取特殊的格式化;但名称、地址或日期很少被显式标出。即使当被标识时,块通常只与格式化效果(诸如边距、字体等)相关联,该格式化效果是有用的信息,但并不直接提供其数据类型或语义角色的任何指示。相似地,文字处理程序经常只在视觉上表示分层包含:经常没有嵌套节段本身的显式标识,而只是被不同格式化的标题的显式表示。
[0007]当创建与先前文档相同的一般种类的新文档时,在许多情况下,大部分工作是文本编辑、替换、移除或插入某些块,注意不要混淆具有不同语义角色的块(诸如交换买方和卖方地址)。这通常需要人工干预,因为写作系统通常对这些块一无所知,特别是它们的数据类型或语义角色,并且因此不能非常有效地提供帮助。
[0008]在一些简单情况下,可以使用“表单”和“模板”,提供显式的位置来填写特别块的内容。然而,表单通常只解决简单的情况,其中基本上所有需要的块都可以提前列举,并且其中很少有大的、可重复的或高度结构化的块。创建表单也需要熟练的技巧,难以根据情况的变化进行调整,并且不能积极地帮助作者。
附图说明
[0009]本专利或申请文件包含至少一张彩色图纸。具有(多张)彩色图纸的该专利或专利
申请出版物的副本将由专利局在提出要求并支付必要开销后提供。
[0010]本公开的实施例具有其他优点和特征,这些优点和特征在结合附图中的示例时,从以下具体实施方式和所附权利要求书中更容易明显,在附图中:
[0011]图1是用于使用机器学习和人工智能来创建分层语义标记的文档的系统和过程的一个实现的框图。
[0012]图2是示出了通过图1的系统跟踪不同文档集的处理的仪表板的屏幕截图。
[0013]图3是用于接收来自用户的反馈的用户界面的屏幕截图。
[0014]图4是与其他软件应用程序的集成的屏幕截图。
[0015]图5是可与本专利技术一起使用的计算机系统的一个实施例的框图。
具体实施方式
[0016]概述
[0017]被确定为是相同类型的一组文档构成“文档集”或“文档集群”。例如,保险公司对某类客户的某种保险的建议可被视为相同类型,并且形成文档集。相同公司对不同种类的保险的建议,或对他们认为不同的客户的建议,可被视为属于不同文档集的不同类型。租赁协议、某种患者的临床笔记、销售建议、日程表、会议纪要等是其他潜在的文档类型,还有分享内容、结构和/或排版的独特模式的子类型。
[0018]在文档集内创建和编辑新的目标文档经常地涉及编辑或替换“语义上显著”的“块”:这样的块是文档的特定部分,通常但不一定是连续的文本跨度,该特定部分具有特定的数据类型和语义角色,并且对于业务或其他过程具有意义和显著性。
[0019]这些块具有各种数据类型,其在这里比许多计算机系统中的原子数据类型更细化。例如,给定的块不仅可以表示字符串,而且可以表示:个人或组织名称;日期;持续时间(与日期完全不是一回事);货币金额。更大的块可以包括药物或其他物质的列表、行程、要遵循的规程、信息包(诸如医疗处方);以及无数的其他信息。
[0020]此外,块可以具有与它们出现在其中的文档相关的语义角色。例如,人名可以是租赁协议中的“租户”,或销售建议中的“卖方”,或另一个人的“代理人”。日期可以表示某种责任或活动的开始或结束。美元数额可以是定期付款数额,或者是与某些条件相关的罚款或奖金,等等。这样的语义角色对于正确使用信息块中的信息是重要的。语义角色的名称被称为“语义角色标签”,或简称为“标签”。
[0021]块通常表示为包,包括其位置、数据类型、语义角色和/或其他数据/元数据。位置通常表示为起点和终点,它们可以以几种方式表示,诸如插入的标志或字节、字符或词元偏移(要么是文档的全局,要么是相对于既定的ID、标志或其他对象)。语义角色由标签或其他标识符表示。块可具有任何大小,并且一些块可以包含其他块作为“子块”。块不仅可以包含文本,而且可以包含非文本数据,诸如图像或其他媒体,以及“结构”(诸如表、列表、节段等)。
[0022]本文中公开的技术使用机器学习、人工智能和其他计算机实现的方法来标识文档中各种语义上重要的块,为它们自动提供适当的数据类型和语义角色,并且使用这种增强的信息来协助作者并支持下游过程。块的位置、数据类型和语义角色经常可以从以下项自动被确定:这里所称的“上下文”,即它们的格式化、结构和内容的组合;相邻或附近内容中
的那些;文档中的总体出现模式;以及所有这些事物跨文档的相似性(主要但不限于相同文档集中的文档之间)。“附近内容”包括在水平方向上接近的内容,诸如在文本阅读顺序中的前后;也包括在垂直方向上接近的内容,诸如在相同容器结构内,如列表和节段,以及它们各自的标志、标题、级别等。相似性不限于精确或模糊的字符串或属性比较,而且可以包括自然语言语法结构、ML(机器学习)技术的相似性,诸如文字、块和其他嵌入的测量相似性,以及先前所标识的块的数据类型和语义角色的相似性。
[0023]例如,个人或组织名称通常可以被标识为具有语义角色(诸如“卖方”),因为文档是这样说的,经常使用某种人类语言中的(多个)句子,但也经常涉及更大的上下文。再例如,一个或多个文字通常可以容易地被标识为表示数据类型,诸如“药物名”;但是需要上下文来确定它带有过敏的语义角色,而不是处方。语义角色的重要证据经常不在同一个句子中,而是以各种其他方式被表达,诸如通过该块出现在更大的块中(诸如本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种在执行用于分析和注释文档的指令的计算机系统上实现的方法,所述方法包括:访问包含多个文档的文档集;通过以下方式自动标识所述文档集中的个体文档内的块:(a)基于所述个体文档中的内容、排版和上下文;以及(b)基于跨所述文档集中的所述文档的内容、排版和上下文的模式;以及基于对从所述文档集内的文档所标识的所述块的分析来注释所述文档集中的文档。2.根据权利要求1所述的计算机实现的方法,还包括:通过基于内容和/或排版的相似性将文档聚类成所述文档集,来汇编所述文档集。3.根据权利要求1所述的计算机实现的方法,其中自动标识所述文档集中的个体文档内的块还(c)基于标识所述个体文档内的语义角色;并且(d)基于标识所述文档集中的不同文档中的对应物块,其中对应物块在不同文档中扮演相同语义角色。4.根据权利要求3所述的计算机实现的方法,其中标识不同文档中的对应物块包括:标识在不同文档中不同但出现在所述不同文档内的基本相似的上下文内的内容。5.根据权利要求3所述的计算机实现的方法,其中标识不同文档中的对应物块包括:标识不同文档中基本相同的内容。6.根据权利要求1所述的计算机实现的方法,还包括:利用描述所述块的元数据来注释所标识的所述块中的一些块,其中标识不同文档中的对应物块基于所述元数据的相似性。7.根据权利要求1所述的计算机实现的方法,其中基于跨所述文档集中的所述文档的模式来标识块包括:在个体文档中标识通常出现在所述文档集的所述文档中但似乎没有出现在所述个体文档中的块。8.根据权利要求1所述的计算机实现的方法,其中所标识的所述块包括:字段块,所述字段块包含所述文档内适合用作文档模板中的字段的内容;以及结构块,所述结构块包含包括所述文档的所述排版内的结构的内容。9.根据权利要求8所述的计算机实现的方法,其中所述字段块中的一些字段块是分层的并且包含其他块作为子块。10.根据权利要求1所述的计算机实现的方法,其中所标识的所述块中的一些块包含描述由其他块扮演的语义角色的内容。11.根据权利要求1所述的计算机实现的方法,还包括:利用所述块的数据类型和所述块的语义角色来注释所标识的所述块中的一些块。12.根据权利要求1所述的计算机实现的方法,其中基于排版来标识块包括:将面向行的文本分组为结构块,其中所述分组基于文字形状、最先的和最后的词元、格式化特性和/或标点符号。13.根据权利要求1所述的计算机实现的方法,其中基于排版来标识块包括:使用在页面图像的图块上被训练的机器学习推理来标识结构块的空间边界。14.根据权利要求1所述的计算机实现的方法,其中基于排版来标识块包括:使用所述排版的几何模式的基于人工智能的视觉识别来标识结构块的空间边界。
15.根据权利要求1所述的计算机实现的方法,其中基于排版来标识块包括:基于非文本结构特征的排版标识结构块,其中所述非文本结构特征包括以下至少一项:图、表、侧边栏、脚注、页眉或页脚。16.根据权利要求1所述的计算机实现的方法,其中基于内容来标识块包括:使用用于主题估计的AI技术来标识块。17.根据权利要求1所述的计算机实现的方法,其中基于内容来标识块包括:使用少量命名实体识别技术来标识所述文档集内的块。18.根据权利要求1所述的计算机实现的方法,还包括:接收针对错误地被标识的块的用户修正;以及响应于所述用户修正来改进自动标识块的步骤。19.一种存储用于分析和改进文档的可执行计算机程序指令的非瞬态计算机可读存储介质,所述指令由计算机系统可执行,并且使所述计算机系统执行方法,所述方法包括:访问包含多个文档的文档集;通过以下方式自动标识所述文档集中的个体文档内的块:(a)基于所述个体文档中的内容、排版和上下文;以及(b)基于跨所述文档集中的所述文档的内容、排版和上下文的模式;以及基于对从所述文档集内的文档所标识的所述块的分析来注释所述文档集中的文档。20.一种用于分析和改进文档的计算机系统,所述计算机系统包括:存储介质,用于接收和存储包含多个文档的文档集;以及处理器系统,具有对所述存储介质的访问、并且执行用于分析和注释文档的应用程序,其中所述处理器系统执行所述应用程序:通过以下方式自动标识所述文档集中的个体文档内的块:(a)基于所述个体文档中的内容、排版和上下文;以及(b)基于跨所述文档集中的所述文档的内容、排版和上下文的模式;以及基于对从所述文档集内的文档所标识的所述块的分析来注释所述文档集中的文档。21.一种在执行用于分析和改进文档的指令的计算机系统上实现的方法,所述方法包括:访问包含多个文档的文档集,其中所述文档集还标识所述文档集的个体文档内的块;将语义角色标签自动指派给多个所述块,其中所述语义角色标签描述由所述块扮演的所述语义角色;并且将语义角色标签自动指派给所述块(a)包括:使用机器学习和/或自然语言处理方法来确定块的语义角色;并且将语义角色标签自动指派给所述块(b)也基于不同文档中的被标识为在其相应文档内扮演相同语义角色的块;以及在所述文档集中的文档的进一步处理中使用所述块及其语义角色标签。22.根据权利要求21所述的计算机实现的方法,其中所述文档集中的所述多个文档都是相同文档类型。23.根据权利要求21所述的计算机实现的方法,其中所述文档集中的所述块包括:字段块,所述字段块包含所述文档内适合用作文档模板中的字段的内容,其中所述字段块中的一些字段块是分层的并且包含其他块作为子块;以及结构块,所述结构块包含包括所述文档的所述排版内的结构的内容。
24.根据权利要求21所述的计算机实现的方法,其中所述文档集包含法律文档;并且所述语义角色包括(a)由所述法律文档的参与方扮演的角色,以及(b)按日期、时间段或其他时间表达方式扮演的角色。25.根据权利要求21所述的计算机实现的方法,其中将语义角色标签自动指派给块包括:从块自动提取所述语义角色标签中的一些语义角色标签;以及将所提取的所述语义角色标签指派给块。26.根据权利要求21所述的计算机实现的方法,其中将语义角色标签自动指派给块包括:通过以下方式使用机器学习从块自动提取语义角色标签:(a)基于个体文档中的内容、排版和上下文;(b)基于跨所述文档集中的所述文档的内容、排版和上下文的模式;以及(c)基于块的数据类型;以及将所提取的所述语义角色标签指派给块。27.根据权利要求21所述的计算机实现的方法,其中将语义角色标签自动指派给块包括:使用自动编码器机器学习技术来自动提取所述语义角色标签中的一些语义角色标签;以及将所提取的所述语义角色标签指派给块。28.根据权利要求21所述的计算机实现的方法,其中将语义角色标签自动指派给块包括:从所述块自动提取候选语义角色标签;使用机器学习来细化所述候选语义角色标签;以及将所提取的所述语义角色标签指派给块。29.根据权利要求21所述的计算机实现的方法,其中将语义角色标签自动指派给块包括:基于来自所述文档集中的不同文档的块的内容、排版和/或上下文的相似性,从块自动提取所述语义角色标签中的一些语义角色标签;以及将所提取的所述语义角色标签指派给块。30.根据权利要求21所述的计算机实现的方法,其中将语义角色标签自动指派给块包括:将候选语义角色标签指派给块;基于由块扮演的所述语义角色的相似性,来将所述块分组为集群;将集群中的所述块之中的所述候选语义角色标签标准化;以及将经标准化的所述语义角色标签指派给块。31.根据权利要求21所述的计算机实现的方法,其中将语义角色标签自动指派给块包括:将候选语义角色标签指派给块;基于所述块的大小和文本嵌入的相似性来将所述块分组为块集群;基于所述候选语义角色标签的文本嵌入的相似性来将所述候选语义角色标签分组为
标签集群;基于所述块集群和所述标签集群来将所述候选语义角色标签标准化;以及将经标准化的所述语义角色标签指派给块。32.根据权利要求21所述的计算机实现的方法,其中将语义角色标签自动指派给块包括:将候选语义角色标签指派给包括文档的节段的块,其中所述候选语义角色标签基于所述节段的标题;基于所述节段中的内容的相似性来将所述块分组为集群;通过选择最常见的候选语义角色标签作为集群中所有块的语义角色标签,将所述候选语义角色标签标准化;以及将经标准化的所述语义角色标签指派给块。33.根据权利要求21所述的计算机实现的方法,其中所述语义角色标签选自一组预定的语义角色标签。34.根据权利要求21所述的计算机实现的方法,其中所述语义角色标签包括:由用于进一步处理所述文档集中的文档的软件应用识别的标签。35.根据权利要求21所述的计算机实现的方法,其中将语义角色标签自动指派给块包括以下至少一项:(a)使用机器学习基于附近的其他块或基于包含所述块的包含块来确定块的语义角色,或者(b)使用自然语言处理方法基于附近块的语法结构来确定块的语义角色。36.根据权利要求21所述的计算机实现的方法,其中所述块中的一些块是命名实体引用,这样的块利用由所述文档中的那些所述块扮演的所述语义角色的语义角色标签来标记,并且这样的块也利用所述块的数据类型来标记。37.根据权利要求21所述的计算机实现的方法,其中所述块中的一些块是所述文档中的多段落结构,并且这样的块利用由所述文档中的那些块扮演的所述语义角色的语义角色标签来标记。38.根据权利要求21所述的计算机实现的方法,还包括:估计自动被指派的所述语义角色标签的置信水平;基于所估计的所述置信水平,将一些指派呈现给用户以供确认;接收针对自动被指派的所述语义角色标签的用户反馈;以及响应于所述用户反馈来改进所述机器学习和/或所述自然语言处理方法。39.一种存储用于分析和改进文档的可执行计算机程序指令的非瞬态计算机可读存储介质,所述指令由计算机系统可执行,并且使所述计算机系统执行方法,所述方法包括:访问包含多个文档的文档集,其中所述文档集还标识所述文档集的个体文档内的块;将语义角色标签自动指派给多个所述块,其中所述语义角色标签描述由所述块扮演的语义角色;并且将语义角色标签自动指派给所述块(a)包括:使用机器学习和/或自然语言处理方法来确定块的语义角色;并且将语义角色标签自动指派给所述块(b)也基于不同文档中的被标识为在其相应文档内扮演相同语义角色的块;以及使所述块及其语义角色标签对所述文档集中的文档的进一步处理可用。40.一种用于分析和改进文档的计算机系统,所述计算机系统包括:
存储介质,用于接收和存储包含多个文档的文档集,其中所述文档集还标识所述文档集的个体文档内的块;以及处理器系统,具有对所述存储介质的访问、并且执行用于分析和改进文档的应用程序,其中所述处理器系统执行所述应用程序:将语义角色标签自动指派给多个所述块,其中所述语义角色标签描述由所述块扮演的语义角色;并且将语义角色标签自动指派给所述块(a)包括:使用机器学习和/或自然语言处理方法来确定块的语义角色;并且将语义角色标签自动指派给所述块(b)也基于不同文档中的被标识为在其相应文档内扮演相同语义角色的块;以及使所述块及其语义角色标签对所述文档集中的文档的进一步处理可用。41.一种在执行用于处理文档的指令的计算机系统上实现的方法,所述方法包括:处理包含多个文档的文档集以标识所述文档中的块并且生成对应注释,包括以下阶段:处理所述文档的图像以标识包括所述文档的所述图像的视觉上有区别的区域的视觉块;以及生成指定所述视觉块的间距和格式化的第一注释;处理所述视觉块和所述第一注释以标识包含来自所述视觉块内的结构的内容的结构块;以及生成指定所述结构块的排版的第二注释;处理所述结构块和所述第二注释以基于结构块中的内容的根据主题的分组来标识主题级块;以及生成指定所述主题级块的主题的第三注释;以及处理所述主题级块和所述第三注释以标识字段块,所述字段块包含适合用作文档模板中的字段的内容;以及生成指定所述字段块的所述字段的第四注释;以包括所述字段块、和从所述文档所标识的其他块中的至少一些块、和针对所述块的对应注释的格式,生成经处理的所述文档的表示;以及使所述格式中的所述表示可供下游过程中的多个软件应用中的任何软件应用使用。42.根据权利要求41所述的计算机实现的方法,其中经处理的所述文档的所述表示包括在处理所述文档时所标识的所述块中的所有块和在处理所述文档时所生成的所述对应注释中的所有注释。43.根据权利要求41所述的计算机实现的方法,其中处理所述文档的所述阶段中的每个阶段使用机器学习、人工智能和/或自然语言处理。44.根据权利要求41所述的计算机实现的方法,其中处理所述文档的所述阶段中的每个阶段标识具有小于100%置信度的块。45.根据权利要求44所述的计算机实现的方法,其中经处理的所述文档的所述表示还包括:针对块的所述标识指定置信水平的注释。46.根据权利要求44所述的计算机实现的方法,还包括:接收针对错误地被标识的块的用户修正;以及响应于所述用户修正来改进自动标识块的阶段。47.根据权利要求41所述的计算机实现的方法,其中处理视觉块、处理结构块和处理主题级块的阶段针对被包含在其他视觉块内的视觉块而递归地被执行。48.根据权利要求41所述的计算机实现的方法,其中经处理的所述文档的所述表示还包括针对多个所述块的所述数据类型和所述语义角色标签的注释,其中所述语义角色标签
描述由所述块扮演的语义角色。49.根据权利要求41所述的计算机实现的方法,其中一些较高级的块包含其他较低级的块作为子块,并且经处理的所述文档的所述表示还包括指定较低级的块包含在较高级的块中的注释。50.根据权利要求41所述的计算机实现的方法,其中一些块具有分层关系,并且经处理的所述文档的所述表示还包括指定块之间的分层关系的注释。51.根据权利要求41所述的计算机实现的方法,其中经处理的所述文档的所述表示中的所述块包括:处于多个不同级的多个节段、标题、列表、项目、标志和/或命名实体。52.根据权利要求41所述的计算机实现的方法,其中所述文档集中的所述多个文档都是相同文档类型。53.根据权利要求41所述的计算机实现的方法,还包括:通过基于内容和/或排版的相似性将文档聚类成所述文档集来汇编所述文档集。54.根据权利要求41所述的计算机实现的方法,其中经处理的所述文档的表示是XML格式的。55.根据权利要求41所述的计算机实现的方法,其中经处理的所述文档的所述表示还包括:使用数字签名实现的针对块的位置的注释。56.根据权利要求41所述的计算机实现的方法,其中所述文档具有原始排版,并且经处理的所述文档的所述表示包含足够的信息以重构具有所述原始排版的所述文档。57.根据权利要求41所述的计算机实现的方法,其中所述多个软件应用包括具有用户界面的软件应用,以供用户创...

【专利技术属性】
技术研发人员:A
申请(专利权)人:多库加米公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1