基于命名实体的解析和识别确定跨文档的修辞相互关系制造技术

技术编号:24133697 阅读:36 留言:0更新日期:2020-05-13 07:18
本发明专利技术的系统、设备和方法涉及扩展话语树并使用扩展话语树来导航文本。在示例中,话语导航应用为第一文档的第一段落创建第一话语树,并且为第二文档的第二段落创建第二话语树。所述应用从第一话语树确定实体和对应的第一基本话语单元。该应用在第二话语树中确定与存在的第一基本话语单元匹配的第二基本话语单元。该应用确定两个基本话语单元之间的修辞相互关系,并在两个话语树之间创建可导航的链接。

On the analysis and recognition of named entities to determine the rhetorical interrelation across documents

【技术实现步骤摘要】
【国外来华专利技术】基于命名实体的解析和识别确定跨文档的修辞相互关系相关申请的交叉引用本申请要求于2017年9月28日提交的编号为62/564,961的美国临时申请以及于2018年9月10日提交的编号为62/729,335的美国临时申请的权益,这些申请通过引用全文并入本文。
本公开一般而言涉及语言学。更具体而言,本公开涉及使用扩展话语树(discoursetree)来导航一个或多个文本主体。关于由联邦政府资助的研究与开发工作所获得的专利技术权利的声明不适用
技术介绍
可以训练自主代理(autonomousagent)(聊天机器人(ChatBots))在诸如提供客户服务的各种应用中回答用户问题。不同的内容可用于训练自主代理,诸如客户服务历史记录或其它数据库。但是,此类内容可能包含错误的信息,从而使利用该信息训练的自主代理对从用户接收到的问题提供错误的答案。替代地,正式文档可以提供更高水平的准确性。正式文档的示例包括银行的流程和程序手册。但是现有的分析技术(诸如基于关键字的搜索解决方案)无法捕获这些正式文档中不同部分的相关性,从而导致错误的结果。更具体而言,确定是否存在关键字的基于关键字的解决方案无法说明文本中的对话(一系列相关交互)。因此,依赖于此类解决方案的自主代理无法正确地解决来自用户的问题,从而降低了此类代理的有效性并使得用户沮丧。因此,需要用于在文本主体之内和之间进行搜索和导航的改进的解决方案。
技术实现思路
一般而言,本专利技术的系统、设备和方法涉及扩展话语树。在示例中,一种方法访问第一文档和第二文档。该方法为第一文档的第一段落创建第一话语树。该方法为第二文档的第二段落创建第二话语树。该方法通过从话语树中提取名词短语、将名词短语分类为实体或非实体、并在第二话语树中确定与第一基本话语单元匹配的第二基本话语单元来从第一话语树中确定实体和对应的第一基本话语单元。该方法响应于确定第一基本话语单元和第二基本话语单元之间的修辞相互关系(rhetoricalrelationship),经由该修辞相互关系来链接第一话语树和第二话语树,从而创建扩展话语树。在一方面,创建第一话语树和创建第二话语树还包括访问包括片段(fragment)的句子。至少一个片段包括动词和词语,每个词语包括词语在片段内的作用。每个片段是基本话语单元。所述创建还包括生成表示多个片段之间的修辞相互关系的话语树。话语树包括节点,每个非终端节点表示两个片段之间的修辞相互关系,话语树的节点的每个终端节点与所述多个片段中的一个片段相关联。在一方面,分类包括使用经训练的机器学习模型、关键字列表或搜索互联网资源中的一个或多个。在一方面,实体是指个人、公司、地点、文档的名称或日期或时间中的一个。在一方面,该方法包括:响应于未确定修辞相互关系,在第一基本话语单元和第二基本话语单元之间创建类型阐述的默认修辞相互关系,并链接第一话语树和第二话语树,从而创建扩展话语树。在一方面,确定修辞相互关系还包括将第一基本话语单元和第二基本话语单元组合成临时段落,并且通过将话语解析应用于临时段落来确定在临时段落内发现了修辞相互关系。在一方面,实体由一个或多个短语或一个或多个基本话语单元表示。在一方面,访问第一文档和第二文档包括确定第一文档的第一内容分数与第二文档的第二内容分数之间的差在阈值内。在一方面,通过执行一个或多个文档的用户查询来获得第一文档和第二文档。在一方面,第一文档和第二文档包括基于特定主题的文本。在一方面,访问第一文档和第二文档包括确定在第一文档和第二文档之间存在预先存在的链接。在另一方面,一种使用扩展话语树来导航文本主体的方法包括访问表示文档的扩展话语树。扩展话语树包括针对第一文档的第一话语树和针对第二文档的第二话语树。该方法还包括从扩展话语树确定响应于来自用户设备的查询的第一基本话语单元和与第一基本话语单元对应的第一位置。该方法还包括从扩展话语树确定导航选项集合,导航选项包括第一话语树的第一基本话语单元和第二基本话语单元之间的第一修辞相互关系以及第一基本话语单元和第二话语树的第三基本话语单元之间的第二修辞相互关系。该方法还包括将第一修辞相互关系和第二修辞相互关系呈现给用户设备。该方法还包括:响应于从用户设备接收到对第一修辞相互关系的选择,向用户设备呈现第二基本话语单元,或者响应于从用户设备接收到对第二修辞相互关系的选择,向用户设备呈现第三基本话语单元。在一方面,该方法还包括:响应于从用户设备接收到附加查询,确定响应于附加查询的附加基本话语单元,并将附加基本话语单元呈现给用户设备。在一方面,确定第一基本话语单元还包括在第一基本话语单元中匹配查询中的一个或多个关键字。在一方面,确定第一基本话语单元还包括:生成用于查询的第一解析树;为一个或多个基本话语单元中的每一个生成附加解析树;以及响应于确定附加解析树中的一个附加解析树包括第一解析树,选择与该一个附加解析树对应的基本话语单元作为第一基本话语单元。在一方面,第一修辞相互关系和第二修辞相互关系包括阐述、使能、条件、对照或归因中的一个。在一方面,以上方法可以在有形的计算机可读介质上实现和/或在计算机处理器和附接的存储器内操作。在一方面,一种方法确定一个或多个文档之间的修辞相互关系。该方法访问表示文档集合中的第一文档的第一话语树和表示文档集合的第二文档的第二话语树。该方法通过将第一话语树和第二话语树应用于经训练的分类模型从扩展话语树集合中获得参考扩展话语树。经训练的分类模型遍历扩展话语树集合,以识别第一候选话语树和第二候选话语树。第一候选话语树和第二候选话语树是对于第一话语树和第二话语树的最佳匹配。该方法从参考扩展话语树确定第一参考话语树和第二参考话语树之间的一个或多个链接。该方法将一个或多个链接传播到第一话语树和第二话语树,从而创建扩展话语树。在一方面,该方法还基于一个或多个链接来确定第一话语树和扩展树之间的一个或多个修辞相互关系,并将该修辞相互关系呈现给用户设备。附图说明图1示出了根据一方面的示例性修辞分类环境。图2描绘了根据一方面的话语树的示例。图3描绘了根据一方面的话语树的另一个示例。图4描绘了根据一方面的说明性方案。图5描绘了根据一方面的分层(hierarchical)二叉树的节点链接表示。图6描绘了根据一方面的图5中的表示的示例性缩进(indented)文本编码。图7描绘了根据一方面的关于财产税的示例请求的示例性DT。图8描绘了对图7中表示的问题的示例性响应。图9图示了根据一方面的用于官方答案的话语树。图10图示了根据一方面的用于原始答案(rawanswer)的话语树。图11描绘了根据一方面的扩展话语树的示例。图12描绘了根据一方面的用于创建扩展话语树的处理的示例的流程图。图13还描绘了根据一方面的不同粒度级别的文档文本单元之间的相互关系。图14描本文档来自技高网...

【技术保护点】
1.一种用于确定一个或多个文档之间的修辞相互关系的计算机实现的方法,该方法包括:/n访问第一文档和第二文档;/n为第一文档的第一段落创建第一话语树;/n为第二文档的第二段落创建第二话语树;/n通过以下操作来确定第一话语树的第一基本话语单元包括实体:/n从第一基本话语单元中提取名词短语,并且/n将所述名词短语分类为包含实体;/n在第二话语树中确定与第一基本话语单元匹配的第二基本话语单元;以及/n响应于确定第一基本话语单元和第二基本话语单元之间的修辞相互关系,经由所述修辞相互关系来链接第一话语树和第二话语树,从而创建扩展话语树。/n

【技术特征摘要】
【国外来华专利技术】20170928 US 62/564,961;20180910 US 62/729,3351.一种用于确定一个或多个文档之间的修辞相互关系的计算机实现的方法,该方法包括:
访问第一文档和第二文档;
为第一文档的第一段落创建第一话语树;
为第二文档的第二段落创建第二话语树;
通过以下操作来确定第一话语树的第一基本话语单元包括实体:
从第一基本话语单元中提取名词短语,并且
将所述名词短语分类为包含实体;
在第二话语树中确定与第一基本话语单元匹配的第二基本话语单元;以及
响应于确定第一基本话语单元和第二基本话语单元之间的修辞相互关系,经由所述修辞相互关系来链接第一话语树和第二话语树,从而创建扩展话语树。


2.如权利要求1所述的计算机实现的方法,其中创建第一话语树和创建第二话语树还包括:
访问包括多个片段的句子,其中至少一个片段包括动词和多个词语,每个词语包括词语在片段中的作用,其中每个片段是基本话语单元;以及
生成表示所述多个片段之间的修辞相互关系的话语树,其中所述话语树包括多个节点,每个非终端节点表示所述多个片段中的两个片段之间的修辞相互关系,所述话语树的节点中的每个终端节点与所述多个片段中的一个片段相关联。


3.如权利要求1所述的计算机实现的方法,其中所述分类包括以下中的一个或多个:(i)使用经训练的机器学习模型、(ii)关键字列表、或(iii)搜索互联网资源。


4.如权利要求1所述的计算机实现的方法,其中实体是指以下中的一个:(i)个人、(ii)公司、(iii)地点、(iv)文档的名称、或(v)日期或时间。


5.如权利要求1所述的计算机实现的方法,还包括:响应于未确定修辞相互关系,在第一基本话语单元和第二基本话语单元之间创建类型阐述的默认修辞相互关系,并且链接第一话语树和第二话语树,从而创建扩展话语树。


6.如权利要求1所述的计算机实现的方法,其中确定所述修辞相互关系还包括:
将第一基本话语单元和第二基本话语单元组合为临时段落;以及
通过将话语解析应用于临时段落来确定临时段落内的修辞相互关系。


7.如权利要求1所述的计算机实现的方法,其中所述实体由(i)一个或多个短语或(ii)一个或多个基本话语单元表示。


8.如权利要求1所述的计算机实现的方法,其中访问第一文档和第二文档包括确定(i)第一文档的第一内容分数与(ii)第二文档的第二内容分数之间的差在阈值内。


9.如权利要求1所述的计算机实现的方法,其中通过执行一个或多个文档的用户查询来获得第一文档和第二文档。


10.如权利要求1所述的计算机实现的方法,其中第一文档和第二文档包括基于特定主题的文本。


11.如权利要求1所述的计算机实现的方法,其中访问第一文档和第二文档包括确定在第一文档和...

【专利技术属性】
技术研发人员:B·加里斯基
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1