跨文档智能写作和处理助手制造技术

技术编号：33762739 阅读：20 留言：0更新日期：2022-06-12 14:12

机器学习、人工智能和其他计算机实现的方法用来标识文档中各种语义上重要的块、用适当的数据类型和语义角色自动标记它们，并且使用该增强的信息来协助作者以及支持下游过程。块位置、数据类型和语义角色经常可以从以下自动被确定：这里所称的“上下文”，即它们的格式化、结构和内容的组合；相邻或附近的内容中的那些；文档中的总体出现模式；以及所有这些事物跨文档的相似性(主要但不仅仅在相同文档集中的文档之中)。相似性不限于精确或模糊的字符串或属性比较，而是可以包括自然语言语法结构的相似性、ML(机器学习)技术，诸如文字、块和其他嵌入的测量相似性，以及先前所标识的块的数据类型和语义角色的相似性。据类型和语义角色的相似性。据类型和语义角色的相似性。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】跨文档智能写作和处理助手
[0001]相关申请的交叉引用
[0002]本申请根据35U.S.C.
§
119(e)要求提交于2019年9月16日的美国临时专利申请序列号62/900,793，“Cross
‑
Document Intelligent Authoring and Processing Assistant”的优先权。上述所有内容的主题通过引用全部并入本文。

[0003]本公开一般涉及用于AI自我监督地创建分层语义标记的文档和/或用于协助写作和处理这样的文档的方法和设备。

技术介绍

[0004]许多业务创建了多个文档，这些文档非常相似，即使它们每次都是定制的。例如，保险办公室可以针对具体种类的保险产生许多建议，但每个建议都必须针对具体客户的需求进行裁制。这些文档可以被认为具有相同“类型”，因为它们具有相似的文本(并且可能还有图像)内容(反映相似的目的和主题)、大单元(诸如节段)的相似选择和布置，并且经常甚至具有相似的几何排版和格式化特性。
[0005]一些类型的文档是广泛地被知晓和使用的，但许多不是。许多是对具体业务、市场或应用特定的，并且新文档是为新情况创建的。可以被称为“写作者”或“编辑”的用户通常通过复制相同类型的较早文档并且然后按需要进行修改(例如通过人工编辑或替换某些内容块)来创建具体类型的新文档(有时被称为“目标文档”)。
[0006]在当前的实践中，文字处理通常只在需要实现格式化的情况下才会标识块：例如，标题、脚注和数字可被显式标...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种在执行用于分析和注释文档的指令的计算机系统上实现的方法，所述方法包括：访问包含多个文档的文档集；通过以下方式自动标识所述文档集中的个体文档内的块：(a)基于所述个体文档中的内容、排版和上下文；以及(b)基于跨所述文档集中的所述文档的内容、排版和上下文的模式；以及基于对从所述文档集内的文档所标识的所述块的分析来注释所述文档集中的文档。2.根据权利要求1所述的计算机实现的方法，还包括：通过基于内容和/或排版的相似性将文档聚类成所述文档集，来汇编所述文档集。3.根据权利要求1所述的计算机实现的方法，其中自动标识所述文档集中的个体文档内的块还(c)基于标识所述个体文档内的语义角色；并且(d)基于标识所述文档集中的不同文档中的对应物块，其中对应物块在不同文档中扮演相同语义角色。4.根据权利要求3所述的计算机实现的方法，其中标识不同文档中的对应物块包括：标识在不同文档中不同但出现在所述不同文档内的基本相似的上下文内的内容。5.根据权利要求3所述的计算机实现的方法，其中标识不同文档中的对应物块包括：标识不同文档中基本相同的内容。6.根据权利要求1所述的计算机实现的方法，还包括：利用描述所述块的元数据来注释所标识的所述块中的一些块，其中标识不同文档中的对应物块基于所述元数据的相似性。7.根据权利要求1所述的计算机实现的方法，其中基于跨所述文档集中的所述文档的模式来标识块包括：在个体文档中标识通常出现在所述文档集的所述文档中但似乎没有出现在所述个体文档中的块。8.根据权利要求1所述的计算机实现的方法，其中所标识的所述块包括：字段块，所述字段块包含所述文档内适合用作文档模板中的字段的内容；以及结构块，所述结构块包含包括所述文档的所述排版内的结构的内容。9.根据权利要求8所述的计算机实现的方法，其中所述字段块中的一些字段块是分层的并且包含其他块作为子块。10.根据权利要求1所述的计算机实现的方法，其中所标识的所述块中的一些块包含描述由其他块扮演的语义角色的内容。11.根据权利要求1所述的计算机实现的方法，还包括：利用所述块的数据类型和所述块的语义角色来注释所标识的所述块中的一些块。12.根据权利要求1所述的计算机实现的方法，其中基于排版来标识块包括：将面向行的文本分组为结构块，其中所述分组基于文字形状、最先的和最后的词元、格式化特性和/或标点符号。13.根据权利要求1所述的计算机实现的方法，其中基于排版来标识块包括：使用在页面图像的图块上被训练的机器学习推理来标识结构块的空间边界。14.根据权利要求1所述的计算机实现的方法，其中基于排版来标识块包括：使用所述排版的几何模式的基于人工智能的视觉识别来标识结构块的空间边界。
15.根据权利要求1所述的计算机实现的方法，其中基于排版来标识块包括：基于非文本结构特征的排版标识结构块，其中所述非文本结构特征包括以下至少一项：图、表、侧边栏、脚注、页眉或页脚。16.根据权利要求1所述的计算机实现的方法，其中基于内容来标识块包括：使用用于主题估计的AI技术来标识块。17.根据权利要求1所述的计算机实现的方法，其中基于内容来标识块包括：使用少量命名实体识别技术来标识所述文档集内的块。18.根据权利要求1所述的计算机实现的方法，还包括：接收针对错误地被标识的块的用户修正；以及响应于所述用户修正来改进自动标识块的步骤。19.一种存储用于分析和改进文档的可执行计算机程序指令的非瞬态计算机可读存储介质，所述指令由计算机系统可执行，并且使所述计算机系统执行方法，所述方法包括：访问包含多个文档的文档集；通过以下方式自动标识所述文档集中的个体文档内的块：(a)基于所述个体文档中的内容、排版和上下文；以及(b)基于跨所述文档集中的所述文档的内容、排版和上下文的模式；以及基于对从所述文档集内的文档所标识的所述块的分析来注释所述文档集中的文档。20.一种用于分析和改进文档的计算机系统，所述计算机系统包括：存储介质，用于接收和存储包含多个文档的文档集；以及处理器系统，具有对所述存储介质的访问、并且执行用于分析和注释文档的应用程序，其中所述处理器系统执行所述应用程序：通过以下方式自动标识所述文档集中的个体文档内的块：(a)基于所述个体文档中的内容、排版和上下文；以及(b)基于跨所述文档集中的所述文档的内容、排版和上下文的模式；以及基于对从所述文档集内的文档所标识的所述块的分析来注释所述文档集中的文档。21.一种在执行用于分析和改进文档的指令的计算机系统上实现的方法，所述方法包括：访问包含多个文档的文档集，其中所述文档集还标识所述文档集的个体文档内的块；将语义角色标签自动指派给多个所述块，其中所述语义角色标签描述由所述块扮演的所述语义角色；并且将语义角色标签自动指派给所述块(a)包括：使用机器学习和/或自然语言处理方法来确定块的语义角色；并且将语义角色标签自动指派给所述块(b)也基于不同文档中的被标识为在其相应文档内扮演相同语义角色的块；以及在所述文档集中的文档的进一步处理中使用所述块及其语义角色标签。22.根据权利要求21所述的计算机实现的方法，其中所述文档集中的所述多个文档都是相同文档类型。23.根据权利要求21所述的计算机实现的方法，其中所述文档集中的所述块包括：字段块，所述字段块包含所述文档内适合用作文档模板中的字段的内容，其中所述字段块中的一些字段块是分层的并且包含其他块作为子块；以及结构块，所述结构块包含包括所述文档的所述排版内的结构的内容。
24.根据权利要求21所述的计算机实现的方法，其中所述文档集包含法律文档；并且所述语义角色包括(a)由所述法律文档的参与方扮演的角色，以及(b)按日期、时间段或其他时间表达方式扮演的角色。25.根据权利要求21所述的计算机实现的方法，其中将语义角色标签自动指派给块包括：从块自动提取所述语义角色标签中的一些语义角色标签；以及将所提取的所述语义角色标签指派给块。26.根据权利要求21所述的计算机实现的方法，其中将语义角色标签自动指派给块包括：通过以下方式使用机器学习从块自动提取语义角色标签：(a)基于个体文档中的内容、排版和上下文；(b)基于跨所述文档集中的所述文档的内容、排版和上下文的模式；以及(c)基于块的数据类型；以及将所提取的所述语义角色标签指派给块。27.根据权利要求21所述的计算机实现的方法，其中将语义角色标签自动指派给块包括：使用自动编码器机器学习技术来自动提取所述语义角色标签中的一些语义角色标签；以及将所提取的所述语义角色标签指派给块。28.根据权利要求21所述的计算机实现的方法，其中将语义角色标签自动指派给块包括：从所述块自动提取候选语义角色标签；使用机器学习来细化所述候选语义角色标签；以及将所提取的所述语义角色标签指派给块。29.根据权利要求21所述的计算机实现的方法，其中将语义角色标签自动指派给块包括：基于来自所述文档集中的不同文档的块的内容、排版和/或上下文的相似性，从块自动提取所述语义角色标签中的一些语义角色标签；以及将所提取的所述语义角色标签指派给块。30.根据权利要求21所述的计算机实现的方法，其中将语义角色标签自动指派给块包括：将候选语义角色标签指派给块；基于由块扮演的所述语义角色的相似性，来将所述块分组为集群；将集群中的所述块之中的所述候选语义角色标签标准化；以及将经标准化的所述语义角色标签指派给块。31.根据权利要求21所述的计算机实现的方法，其中将语义角色标签自动指派给块包括：将候选语义角色标签指派给块；基于所述块的大小和文本嵌入的相似性来将所述块分组为块集群；基于所述候选语义角色标签的文本嵌入的相似性来将所述候选语义角色标签分组为
标签集群；基于所述块集群和所述标签集群来将所述候选语义角色标签标准化；以及将经标准化的所述语义角色标签指派给块。32.根据权利要求21所述的计算机实现的方法，其中将语义角色标签自动指派给块包括：将候选语义角色标签指派给包括文档的节段的块，其中所述候选语义角色标签基于所述节段的标题；基于所述节段中的内容的相似性来将所述块分组为集群；通过选择最常见的候选语义角色标签作为集群中所有块的语义角色标签，将所述候选语义角色标签标准化；以及将经标准化的所述语义角色标签指派给块。33.根据权利要求21所述的计算机实现的方法，其中所述语义角色标签选自一组预定的语义角色标签。34.根据权利要求21所述的计算机实现的方法，其中所述语义角色标签包括：由用于进一步处理所述文档集中的文档的软件应用识别的标签。35.根据权利要求21所述的计算机实现的方法，其中将语义角色标签自动指派给块包括以下至少一项：(a)使用机器学习基于附近的其他块或基于包含所述块的包含块来确定块的语义角色，或者(b)使用自然语言处理方法基于附近块的语法结构来确定块的语义角色。36.根据权利要求21所述的计算机实现的方法，其中所述块中的一些块是命名实体引用，这样的块利用由所述文档中的那些所述块扮演的所述语义角色的语义角色标签来标记，并且这样的块也利用所述块的数据类型来标记。37.根据权利要求21所述的计算机实现的方法，其中所述块中的一些块是所述文档中的多段落结构，并且这样的块利用由所述文档中的那些块扮演的所述语义角色的语义角色标签来标记。38.根据权利要求21所述的计算机实现的方法，还包括：估计自动被指派的所述语义角色标签的置信水平；基于所估计的所述置信水平，将一些指派呈现给用户以供确认；接收针对自动被指派的所述语义角色标签的用户反馈；以及响应于所述用户反馈来改进所述机器学习和/或所述自然语言处理方法。39.一种存储用于分析和改进文档的可执行计算机程序指令的非瞬态计算机可读存储介质，所述指令由计算机系统可执行，并且使所述计算机系统执行方法，所述方法包括：访问包含多个文档的文档集，其中所述文档集还标识所述文档集的个体文档内的块；将语义角色标签自动指派给多个所述块，其中所述语义角色标签描述由所述块扮演的语义角色；并且将语义角色标签自动指派给所述块(a)包括：使用机器学习和/或自然语言处理方法来确定块的语义角色；并且将语义角色标签自动指派给所述块(b)也基于不同文档中的被标识为在其相应文档内扮演相同语义角色的块；以及使所述块及其语义角色标签对所述文档集中的文档的进一步处理可用。40.一种用于分析和改进文档的计算机系统，所述计算机系统包括：
存储介质，用于接收和存储包含多个文档的文档集，其中所述文档集还标识所述文档集的个体文档内的块；以及处理器系统，具有对所述存储介质的访问、并且执行用于分析和改进文档的应用程序，其中所述处理器系统执行所述应用程序：将语义角色标签自动指派给多个所述块，其中所述语义角色标签描述由所述块扮演的语义角色；并且将语义角色标签自动指派给所述块(a)包括：使用机器学习和/或自然语言处理方法来确定块的语义角色；并且将语义角色标签自动指派给所述块(b)也基于不同文档中的被标识为在其相应文档内扮演相同语义角色的块；以及使所述块及其语义角色标签对所述文档集中的文档的进一步处理可用。41.一种在执行用于处理文档的指令的计算机系统上实现的方法，所述方法包括：处理包含多个文档的文档集以标识所述文档中的块并且生成对应注释，包括以下阶段：处理所述文档的图像以标识包括所述文档的所述图像的视觉上有区别的区域的视觉块；以及生成指定所述视觉块的间距和格式化的第一注释；处理所述视觉块和所述第一注释以标识包含来自所述视觉块内的结构的内容的结构块；以及生成指定所述结构块的排版的第二注释；处理所述结构块和所述第二注释以基于结构块中的内容的根据主题的分组来标识主题级块；以及生成指定所述主题级块的主题的第三注释；以及处理所述主题级块和所述第三注释以标识字段块，所述字段块包含适合用作文档模板中的字段的内容；以及生成指定所述字段块的所述字段的第四注释；以包括所述字段块、和从所述文档所标识的其他块中的至少一些块、和针对所述块的对应注释的格式，生成经处理的所述文档的表示；以及使所述格式中的所述表示可供下游过程中的多个软件应用中的任何软件应用使用。42.根据权利要求41所述的计算机实现的方法，其中经处理的所述文档的所述表示包括在处理所述文档时所标识的所述块中的所有块和在处理所述文档时所生成的所述对应注释中的所有注释。43.根据权利要求41所述的计算机实现的方法，其中处理所述文档的所述阶段中的每个阶段使用机器学习、人工智能和/或自然语言处理。44.根据权利要求41所述的计算机实现的方法，其中处理所述文档的所述阶段中的每个阶段标识具有小于100％置信度的块。45.根据权利要求44所述的计算机实现的方法，其中经处理的所述文档的所述表示还包括：针对块的所述标识指定置信水平的注释。46.根据权利要求44所述的计算机实现的方法，还包括：接收针对错误地被标识的块的用户修正；以及响应于所述用户修正来改进自动标识块的阶段。47.根据权利要求41所述的计算机实现的方法，其中处理视觉块、处理结构块和处理主题级块的阶段针对被包含在其他视觉块内的视觉块而递归地被执行。48.根据权利要求41所述的计算机实现的方法，其中经处理的所述文档的所述表示还包括针对多个所述块的所述数据类型和所述语义角色标签的注释，其中所述语义角色标签
描述由所述块扮演的语义角色。49.根据权利要求41所述的计算机实现的方法，其中一些较高级的块包含其他较低级的块作为子块，并且经处理的所述文档的所述表示还包括指定较低级的块包含在较高级的块中的注释。50.根据权利要求41所述的计算机实现的方法，其中一些块具有分层关系，并且经处理的所述文档的所述表示还包括指定块之间的分层关系的注释。51.根据权利要求41所述的计算机实现的方法，其中经处理的所述文档的所述表示中的所述块包括：处于多个不同级的多个节段、标题、列表、项目、标志和/或命名实体。52.根据权利要求41所述的计算机实现的方法，其中所述文档集中的所述多个文档都是相同文档类型。53.根据权利要求41所述的计算机实现的方法，还包括：通过基于内容和/或排版的相似性将文档聚类成所述文档集来汇编所述文档集。54.根据权利要求41所述的计算机实现的方法，其中经处理的所述文档的表示是XML格式的。55.根据权利要求41所述的计算机实现的方法，其中经处理的所述文档的所述表示还包括：使用数字签名实现的针对块的位置的注释。56.根据权利要求41所述的计算机实现的方法，其中所述文档具有原始排版，并且经处理的所述文档的所述表示包含足够的信息以重构具有所述原始排版的所述文档。57.根据权利要求41所述的计算机实现的方法，其中所述多个软件应用包括具有用户界面的软件应用，以供用户创...

【专利技术属性】
技术研发人员：A，
申请(专利权)人：多库加米公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人