行间的机器阅读制造技术

技术编号:34383668 阅读:72 留言:0更新日期:2022-08-03 21:03
本发明专利技术涉及行间的机器阅读。公开了用于识别输入文本内的一个或多个缺失片段的技术。为接收的输入文本(IT)生成话语树(DT),该IT具有任何合适数量的句子片段。可以基于确定该DT的一个或多个修辞关系与一组预定义修辞关系中的一个相匹配来识别该IT很可能缺失一个或多个句子片段的指示。该IT的一个或多个句子片段来生成查询,并对知识库执行该查询以获得一组搜索结果。可以利用最相关的搜索结果来识别一组候选句子片段。可以基于将这些候选句子片段与该IT中提供的句子片段进行比较来识别这些候选句子片段的子集,该子集中的每个候选句子片段是隐含的但不被包括在IT中。片段是隐含的但不被包括在IT中。片段是隐含的但不被包括在IT中。

【技术实现步骤摘要】
行间的机器阅读
[0001]相关申请的交叉引用
[0002]本申请要求2022年1月4日提交的名称为“Machine Reading Between the Lines[行间的机器阅读]”的美国专利申请号17/568,527和2021年2月2日提交的名称为“Machine Reading Between the Lines[行间的机器阅读]”的美国临时申请号63/144,704的权益,这些申请的内容出于所有目的全部并入本文。


[0003]本公开总体上涉及语言学。更具体地,本公开涉及使用话语分析和神经机器阅读理解来生成或验证对问题的回答。

技术介绍

[0004]由于处理器速度和存储器容量的大大提高,计算机实施的语言学应用正在增加。例如,基于计算机的语言话语分析促进了许多应用,如可以回答从用户设备接收的问题的自动代理。人们在说话或写作时有时无法提供重要的细节。这可能是出于多种缘由,例如不愿意直接说、感到尴尬或不舒服。例如,患者可能不会与他的医生分享所有信息。因此,读者或听众经常在一个人的言语或写作中“行间的阅读(read between the lines)”来确定重要信息是否未陈述并因此缺失(例如,由于作者认为该信息已经为读者所知,所以有意将该信息排除在外)。解决这个问题的现有自然语言推理(NLI)系统近年来取得了很大进展。然而,这些系统仍然受到数据集的限制,这些数据集代表了人类推理可能性的一部分。由于这个原因和其他限制,当前的NLI系统与它们行间的阅读的能力之间仍然存在差距。

技术实现思路
r/>[0005]公开了用于识别输入文本内潜在缺失的片段的技术。
[0006]在一些实施例中,公开了一种从输入文本中识别一个或多个缺失的自然语言表达的方法。缺失的信息可能对文本的后续机器处理/理解是有利的。方法可以包括接收包括多个句子片段的输入文本。方法可以进一步包括生成表示句子片段之间的修辞关联(rhetorical relation)的话语树,话语树包括多个节点。在一些实施例中,多个节点中的每个非终止节点表示句子片段中的两个之间的修辞关系(rhetorical relationship),并且多个节点中的每个终止节点与句子片段中的一个相关联。方法可以进一步包括至少部分地基于识别到话语树的一个或多个修辞关系与一组预定义修辞关系中的一个相匹配来识别输入文本很可能缺失一个或多个句子片段。方法可以进一步包括至少部分地基于多个句子片段的子集来生成查询。方法可以进一步包括至少部分基于对知识库执行查询来获得一组搜索结果。方法可以进一步包括从一组搜索结果的搜索结果中,获得针对缺失的一个或多个句子片段的一组候选句子片段。方法可以进一步包括至少部分地基于将话语树的句子片段与从搜索结果获得的一组候选句子片段进行比较,从一组候选句子片段中识别句子片段子集。方法可以进一步包括至少部分地基于识别到句子片段子集来执行一个或多个操
作,句子片段子集是隐含的但从输入文本中排除。
[0007]在一些实施例中,知识库是在线知识库(例如,通过诸如互联网等公共网络访问的知识库)。
[0008]在一些实施例中,生成查询进一步包括:从输入文本的多个句子片段中识别重复的句子片段,以及从重复的句子片段生成泛化陈述。在一些情况下,查询是从泛化陈述生成的。
[0009]在一些实施例中,方法可以进一步包括至少部分地基于识别到搜索结果与查询之间的相关性值超过预定义阈值来从一组搜索结果中选择搜索结果。作为获得针对缺失的一个或多个句子片段的一组候选句子片段的一部分,可以从搜索结果生成相应的话语树。
[0010]在一些实施例中,识别句子片段的子集进一步包括识别在相应的话语树内包含一预定义组修辞关联中的一个或多个修辞关联,并获得与从搜索结果生成的相应话语树的一预定义组修辞关联中的一个或多个修辞关联相关联的片段。在一些实施例中,该预定义组修辞关联包括以下至少一项:归因、条件、背景、对比、原因或解释。
[0011]本文讨论的(多个)示例性方法可以在包括一个或多个处理器的系统和/或设备上实施,和/或作为指令存储在非暂态计算机可读介质上。
附图说明
[0012]图1描绘了根据本公开的至少一个实施例的用于从输入文本中识别一个或多个缺失的自然语言表达的计算环境的示例。
[0013]图2描绘了根据至少一个实施例由图1的识别模块执行的方法的示例流程。
[0014]图3描绘了根据至少一个实施例的针对输入文本实例的话语树。
[0015]图4描绘了根据至少一个实施例的针对另一输入文本实例的话语树。
[0016]图5描绘了根据至少一个实施例的针对输入文本的每个句子的句法树。
[0017]图6描绘了图示根据至少一个实施例的用于从输入文本中识别一个或多个缺失的自然语言表达的示例方法的流程图。
[0018]图7描绘了根据至少一个实施例的用于实施各方面之一的分布式系统的简化图。
[0019]图8是根据至少一个实施例的根据本公开的一方面的系统环境的一个或多个部件的简化框图,通过系统环境,由一方面的系统的一个或多个部件提供的服务可以作为云服务提供。
[0020]图9图示了根据至少一个实施例的可以在其中实施各个方面的示例性计算子系统。
具体实施方式
[0021]本公开的各方面涉及从输入文本中识别一个或多个缺失的自然语言表达。
[0022]本文公开的“行间的阅读(RBL)”技术是指用于形成未被作者包括在输入文本中但被认为是作者假设的自然语言(NL)表达的操作。RBL对于识别文本的隐藏含义(即,作者打算隐瞒或偏好不坦白或明确陈述的内容)是必要的。仅通过示例的方式,在医疗投诉中,RBL对于揭示患者可能不想与医生分享的信息至关重要。可以利用话语分析来识别文本中RBL技术被期望产生结果的位置,利用句法泛化来制定针对web挖掘的查询,并从文档中提取信
息以获得RBL结果。
[0023]此处公开的RBL技术可以用于查找或生成表达作者打算说但实际上并未在文本中陈述的文本部分。RBL可以识别以下成分,包括但不限于:
[0024]·
实体,其在文本中缺失但假设读者可以理解和识别;
[0025]·
这些实体的属性,根据作者,其要么是默认的,要么可能会被读者负面地感知;
[0026]·
对所提及主题的看法,作者不想明确解释;
[0027]·
关于实体的情感(sentiment),作者倾向于避免明确写出,但希望读者能够理解;以及
[0028]·
文本中提到的事实与分句(clause)之间的解释或论证联系,有能力的读者可以恢复这种联系。
[0029]RBL技术可以形成在逻辑上连接文本中的两个陈述的一个或多个短语。作者没有提到这个短语,而是假设或有意隐瞒。
[0030]一个简单的示例可以与儿童成长有关。通常,蹒跚学步的孩子会避免接受他们累了并准备好上床睡觉。相反,他们说他们饿了、渴了、无聊了等等。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种识别隐含的但从输入文本中缺失的一个或多个缺失的自然语言表达的方法,所述方法包括:接收包括多个句子片段的输入文本;生成表示所述句子片段之间的修辞关联的话语树,所述话语树包括多个节点,所述多个节点中的每个非终止节点表示所述句子片段中的两个之间的修辞关系,并且所述多个节点中的每个终止节点与所述句子片段中的一个相关联;至少部分地基于识别到所述话语树的一个或多个修辞关系与一组预定义修辞关系中的一个相匹配来识别所述输入文本很可能缺失一个或多个句子片段;至少部分地基于所述多个句子片段的子集来生成查询;至少部分地基于对知识库执行所述查询来获得一组搜索结果;从所述一组搜索结果的搜索结果中,获得针对所述缺失的一个或多个句子片段的一组候选句子片段;至少部分地基于将所述话语树的所述句子片段与从所述搜索结果获得的所述一组候选句子片段进行比较,从所述一组候选句子片段中识别句子片段子集;以及至少部分地基于识别到所述句子片段子集来执行一个或多个操作,所述句子片段子集是隐含的但从所述输入文本中排除的自然语言表达。2.如权利要求1所述的方法,其中,所述知识库是在线知识库。3.如权利要求1所述的方法,其中,生成所述查询进一步包括:从所述输入文本的所述多个句子片段中识别重复的句子片段;以及从所述重复的句子片段生成泛化陈述,其中,所述查询是从所述泛化陈述生成的。4.如权利要求1所述的方法,进一步包括至少部分地基于识别到所述搜索结果与所述查询之间的相关性值超过预定义阈值来选择所述一组搜索结果中的搜索结果。5.如权利要求1所述的方法,其中,获得针对所述缺失的一个或多个句子片段的所述一组候选句子片段包括从所述搜索结果生成相应的话语树。6.如权利要求5所述的方法,其中,识别所述句子片段子集进一步包括识别第二预定义组的修辞关联和从所述搜索结果生成的所述相应的话语树的对应片段。7.如权利要求6所述的方法,其中,所述第二预定义组的修辞关联包括以下中的至少一项:归因、条件、背景、对比、原因或解释。8.一种计算设备,包括:一个或多个处理器;以及一个或多个存储器,所述一个或多个存储器存储有用于识别隐含的但从输入文本中缺失的一个或多个缺失的自然语言表达的计算机可执行指令,所述指令当由所述一个或多个处理器执行时使所述计算设备:接收包括多个句子片段的输入文本;生成表示所述句子片段之间的修辞关联的话语树,所述话语树包括多个节点,所述多个节点中的每个非终止节点表示所述句子片段中的两个之间的修辞关系,并且所述多个节点中的每个终止节点与所述句子片段中的一个相关联;至少部分地基于识别到所述话语树的一个或多个修辞关系与一组预定义修辞关系中的一个相匹配来识别所述输入文本很可能缺失一个或多个句子片段;
至少部分地基于所述多个句子片段的子集来生成查询;至少部分地基于对知识库执行所述查询来获得一组搜索结果;从所述一组搜索结果的搜索结果中,获得针对所述缺失的一个或多个句子片段的一组候选句子片段;至少部分地基于将所述话语树的所述句子片段与从所述搜索结果获得的所述一组候选句子片段进行比较,从所述一组候选句子片段中识别句子片段子集;以及至少部分地基于识别到所述句子片段子集来执行一个或多个操作,所述句子片段子集是隐含的但从所述输入文本中排除的自然语言表达。9.如权利要求8所述的计算设备,...

【专利技术属性】
技术研发人员:B
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1