行间的机器阅读制造技术

技术编号:34383668 阅读:87 留言:0更新日期:2022-08-03 21:03
本发明专利技术涉及行间的机器阅读。公开了用于识别输入文本内的一个或多个缺失片段的技术。为接收的输入文本(IT)生成话语树(DT),该IT具有任何合适数量的句子片段。可以基于确定该DT的一个或多个修辞关系与一组预定义修辞关系中的一个相匹配来识别该IT很可能缺失一个或多个句子片段的指示。该IT的一个或多个句子片段来生成查询,并对知识库执行该查询以获得一组搜索结果。可以利用最相关的搜索结果来识别一组候选句子片段。可以基于将这些候选句子片段与该IT中提供的句子片段进行比较来识别这些候选句子片段的子集,该子集中的每个候选句子片段是隐含的但不被包括在IT中。片段是隐含的但不被包括在IT中。片段是隐含的但不被包括在IT中。

【技术实现步骤摘要】
行间的机器阅读
[0001]相关申请的交叉引用
[0002]本申请要求2022年1月4日提交的名称为“Machine Reading Between the Lines[行间的机器阅读]”的美国专利申请号17/568,527和2021年2月2日提交的名称为“Machine Reading Between the Lines[行间的机器阅读]”的美国临时申请号63/144,704的权益,这些申请的内容出于所有目的全部并入本文。


[0003]本公开总体上涉及语言学。更具体地,本公开涉及使用话语分析和神经机器阅读理解来生成或验证对问题的回答。

技术介绍

[0004]由于处理器速度和存储器容量的大大提高,计算机实施的语言学应用正在增加。例如,基于计算机的语言话语分析促进了许多应用,如可以回答从用户设备接收的问题的自动代理。人们在说话或写作时有时无法提供重要的细节。这可能是出于多种缘由,例如不愿意直接说、感到尴尬或不舒服。例如,患者可能不会与他的医生分享所有信息。因此,读者或听众经常在一个人的言语或写作中“行间的阅读(read betwe本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种识别隐含的但从输入文本中缺失的一个或多个缺失的自然语言表达的方法,所述方法包括:接收包括多个句子片段的输入文本;生成表示所述句子片段之间的修辞关联的话语树,所述话语树包括多个节点,所述多个节点中的每个非终止节点表示所述句子片段中的两个之间的修辞关系,并且所述多个节点中的每个终止节点与所述句子片段中的一个相关联;至少部分地基于识别到所述话语树的一个或多个修辞关系与一组预定义修辞关系中的一个相匹配来识别所述输入文本很可能缺失一个或多个句子片段;至少部分地基于所述多个句子片段的子集来生成查询;至少部分地基于对知识库执行所述查询来获得一组搜索结果;从所述一组搜索结果的搜索结果中,获得针对所述缺失的一个或多个句子片段的一组候选句子片段;至少部分地基于将所述话语树的所述句子片段与从所述搜索结果获得的所述一组候选句子片段进行比较,从所述一组候选句子片段中识别句子片段子集;以及至少部分地基于识别到所述句子片段子集来执行一个或多个操作,所述句子片段子集是隐含的但从所述输入文本中排除的自然语言表达。2.如权利要求1所述的方法,其中,所述知识库是在线知识库。3.如权利要求1所述的方法,其中,生成所述查询进一步包括:从所述输入文本的所述多个句子片段中识别重复的句子片段;以及从所述重复的句子片段生成泛化陈述,其中,所述查询是从所述泛化陈述生成的。4.如权利要求1所述的方法,进一步包括至少部分地基于识别到所述搜索结果与所述查询之间的相关性值超过预定义阈值来选择所述一组搜索结果中的搜索结果。5.如权利要求1所述的方法,其中,获得针对所述缺失的一个或多个句子片段的所述一组候选句子片段包括从所述搜索结果生成相应的话语树。6.如权利要求5所述的方法,其中,识别所述句子片段子集进一步包括识别第二预定义组的修辞关联和从所述搜索结果生成的所述相应的话语树的对应片段。7.如权利要求6所述的方法,其中,所述第二预定义组的修辞关联包括以下中的至少一项:归因、条件、背景、对比、原因或解释。8.一种计算设备,包括:一个或多个处理器;以及一个或多个存储器,所述一个或多个存储器存储有用于识别隐含的但从输入文本中缺失的一个或多个缺失的自然语言表达的计算机可执行指令,所述指令当由所述一个或多个处理器执行时使所述计算设备:接收包括多个句子片段的输入文本;生成表示所述句子片段之间的修辞关联的话语树,所述话语树包括多个节点,所述多个节点中的每个非终止节点表示所述句子片段中的两个之间的修辞关系,并且所述多个节点中的每个终止节点与所述句子片段中的一个相关联;至少部分地基于识别到所述话语树的一个或多个修辞关系与一组预定义修辞关系中的一个相匹配来识别所述输入文本很可能缺失一个或多个句子片段;
至少部分地基于所述多个句子片段的子集来生成查询;至少部分地基于对知识库执行所述查询来获得一组搜索结果;从所述一组搜索结果的搜索结果中,获得针对所述缺失的一个或多个句子片段的一组候选句子片段;至少部分地基于将所述话语树的所述句子片段与从所述搜索结果获得的所述一组候选句子片段进行比较,从所述一组候选句子片段中识别句子片段子集;以及至少部分地基于识别到所述句子片段子集来执行一个或多个操作,所述句子片段子集是隐含的但从所述输入文本中排除的自然语言表达。9.如权利要求8所述的计算设备,...

【专利技术属性】
技术研发人员:B
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1