用于文档查询的系统、设备和方法技术方案

技术编号:34780912 阅读:19 留言:0更新日期:2022-09-03 19:36
描述了用于搜索文档的技术。一种示例性方法包括:接收文档搜索查询;基于所述文档搜索查询来查询至少一个索引以识别匹配数据;获取识别的匹配数据;至少基于获取的识别匹配数据和所述文档搜索查询,基于对一个或多个机器学习模型的一次或多次调用来从文档集中确定排名靠前的段落和排名靠前的文档中的一项或多项;以及返回所述排名靠前的段落和文档适当子集中的一项或多项。集中的一项或多项。集中的一项或多项。

【技术实现步骤摘要】
【国外来华专利技术】用于文档查询的系统、设备和方法

技术介绍

[0001]企业生成的数据比以往更多。试图从生成的数据中找到相关的数据是一项艰巨的任务。传统的搜索解决方案依赖于基于关键字的文档分析来查找数据中的特定术语,而通用方法固有地受限于无法“理解”更细粒度的内容。
附图说明
[0002]将参考附图描述根据本公开的各种实施方案,在附图中:
[0003]图1示出了企业搜索服务的实施方案。
[0004]图2示出了用于提供推理功能的企业搜索服务的实施方案。
[0005]图3示出了用于提供推理功能的企业搜索服务的实施方案。
[0006]图4示出了用于执行推理(文档搜索)的方法的实施方案。
[0007]图5示出了推理查询的结果的改进显示的实施方案。
[0008]图6示出了用于执行推理查询的结果的改进显示的方法的实施方案。
[0009]图7示出了用于提供摄取功能的企业搜索服务102的实施方案。
[0010]图8示出了用于执行一个或多个文档的摄取的方法的实施方案。
[0011]图9示出了供摄取使用的示例性保留字段的实施方案。
[0012]图10示出了用于更新/添加/去除保留字段以供摄取使用的图形用户界面的实施方案。
[0013]图11示出了模型构建系统的实施方案。
[0014]图12示出了用于模型管理的方法的实施方案。
[0015]图13示出了在用于训练机器学习模型的问题和答案的主动学习中使用的图形用户界面的实施方案。
[0016]图14示出了在用于训练机器学习模型的文档排序的主动学习中使用的图形用户界面的实施方案。
[0017]图15示出了用于训练机器学习模型的主动学习的方法的实施方案。
[0018]图16示出了用于训练和使用问题生成模型的方法的实施方案。
[0019]图17示出了由在已知问答对上训练的问题生成模型生成的第一示例性候选问题集。
[0020]图18示出了由在已知问答对上训练的问题生成模型生成的第二示例性候选问题集。
[0021]图19示出了用于训练问题生成模型的方法的实施方案。
[0022]图20示出了根据一些实施方案的示例性提供商网络环境。
[0023]图21是根据一些实施方案的向客户提供存储服务和硬件虚拟化服务的示例性提供商网络的框图。
[0024]图22是示出可以用于一些实施方案中的示例性计算机系统的框图。
具体实施方式
[0025]本公开涉及用于使用机器学习来索引并搜索基于文本的文档的方法、设备、系统和非暂时性计算机可读存储介质。获取文档、从文档中提取文本并对其进行索引等,以使得可使用基于术语或基于问题的查询来对其进行搜索。这些基于文本的文档(包括常问问题(FAQ))将根据用户查询一个或多个排名靠前(最相关)的文档、一个或多个排名靠前的段落(其中段落是从给定文档中提取的有限数量的连续行)和/或一个或多个排名靠前的FAQ进行搜索。
[0026]本文详述的是使用户能够使用自然语言直观地搜索非结构化数据的企业搜索服务的实施方案。它返回对问题的具体且个性化的答案,从而为最终用户提供更接近与人类专家互动的体验。
[0027]在基于关键字的文档分析方法中,很难确定内容的任何类型的上下文。本文详述的实施方案允许内部或外部托管的文档语料库以对那些文档访问和索引。索引有助于提供文档的上下文,并为非结构化文档提供“结构”的外观。在一些情况下,用于索引的保留字段集为文档中的标签提供了更统一的上下文。因此,下文描述的企业搜索服务的实施方案允许通过从文档语料库中提取相关信息来回答事实性和非事实性(例如,怎么做、是什么、为什么)问题。此类问题(例如,“软件X的最新版本是什么”)通常可以用几个词来回答。在一些实施方案中,企业搜索服务允许回答可以在几行中回答的简短问题,诸如在常问问题文档中找到的那些(例如,“IP默认网关、IP默认网络和IP路由0.0.0.0/0命令之间的区别是什么?”)。在一些实施方案中,企业搜索服务允许通过识别整个相关文档来回答描述性问题,其中答案是整个文档。例如,“巴西的CLI是什么?”[0028]一些搜索系统的另一个缺陷是向用户显示与搜索结果相关的内容。虽然一些搜索结果在结果中加粗了特定的词语或短语,但这是帮助用户识别搜索的“正确”答案的程度。本文详述的是基于找到“正确”答案的一个或多个机器学习模型的置信度进一步强调“正确”答案的实施方案。不“正确”的答案要么不被强调,要么以不同的方式强调。
[0029]许多企业使用日志分析或具有像客户服务、搜索业务报告和FAQ这样的用例,其可能受益于本文详述的实施方案。详述的实施方案使这些企业能够构建安全地覆盖更广泛来源的更智能的企业搜索应用,并提供强大的自然语言理解能力,而时间和复杂性只是实现他们自己的搜索解决方案所需的一小部分。
[0030]图1示出了企业搜索服务的实施方案。企业搜索服务102允许使用一个或多个机器学习模型来查询或搜索企业的文档和/或其适当的子集。下面讨论该企业搜索服务102的各个方面的细节。在任何搜索之前,已在此类查询之前摄取了文档和/或其适当的子集。在一些实施方案中,企业搜索服务102提供从提供商网络100内部的数据源105和提供商网络100外部的数据源106(例如,存储在第三方位置、本地存储等)中摄取文档的能力。
[0031]摄取服务130允许将文档摄取到企业搜索服务102中。可以从数据源中拉取文档(例如,响应于请求)和/或从数据源中推送文档(例如,添加或更改文档时同步)。摄取服务130还可获取与文档相关联的访问控制列表(ACL)。ACL可用于确定是否允许提供搜索结果。
[0032]为了从数据源105或106获得文档,摄取服务耦合到连接器服务180,该连接器服务提供多个连接器以连接到不同的数据源并根据特定数据源的适当协议从那些源接收数据(作为推送或拉取)。需注意,不同的数据源可使用不同的传输协议、存储协议、加密协议等。
[0033]使用控制平面170来配置连接器服务180的数据连接器。该控制平面170包含用于企业搜索服务102的资源管理的工作流。控制平面170还可以用于配置模型构建流水线160,该模型构建流水线构建特定模型、词汇表和嵌入以托管在模型托管服务110中并用于回答查询。需注意,在一些实施方案中,模型管理服务150可用于刷新给定模型。
[0034]摄取服务130还从文档中提取文本,对提取的文本进行预处理(例如,记号化、规范化和/或去除噪声),并调用索引服务以生成文本的索引条目,并使文档(或其子集)被存储。索引服务140将已经由摄取服务130获取的文档索引到一个或多个索引107中。索引是将数据映射到多个字段的组织数据的数据结构。每个文档或文档的子集(例如,段落)都由唯一标识符标识。在一些实施方案中,索引包括多个JSON文档。
[0035]在一些实施方案中,索引是倒排索引,它列出了出现在任何文档中的每个唯一词语并且标识了每个词语出现在的所有文档。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,其包括:接收文档搜索查询;基于所述文档搜索查询来查询至少一个索引以识别匹配数据;获取识别的匹配数据;通过以下方式至少基于获取的识别匹配数据和所述文档搜索查询,基于对一个或多个机器学习模型的一次或多次调用来从文档集中确定排名靠前的段落和排名靠前的文档中的一项或多项:从识别的文档集中确定文档适当子集,基于所述文档搜索查询,从所述文档适当子集中识别段落集,从段落集的识别的集合中确定段落适当子集,从最佳匹配段落适当子集中确定排名靠前的段落;以及返回所述排名靠前的段落和所述文档适当子集中的一项或多项。2.根据权利要求1所述的计算机实现的方法,其中所述一个或多个机器学习模型从所述识别的文档集中确定文档适当子集是使用第一机器学习模型执行的,从所述段落集的识别的集合中确定段落适当子集是使用第二机器学习模型执行的,并且从所述最佳匹配段落适当子集中确定排名靠前的段落是使用第三机器学习模型执行的。3.根据权利要求2所述的计算机实现的方法,其中所述第一机器学习模型是深度交叉网络模型,并且所述第二机器学习模型和所述第三机器学习模型是来自变换器模型的双向编码器表示。4.根据权利要求1

3中任一项所述的计算机实现的方法,其中返回所述排名靠前的段落和所述文档适当子集中的一项或多项包括显示所述排名靠前的段落和所述文档适当子集中的所述一项或多项。5.根据权利要求1

4中任一项所述的计算机实现的方法,其中所述至少一个索引包括用于段落的至少一个索引和用于文档的至少一个索引。6.根据权利要求1

5中任一项所述的计算机实现的方法,其中所述文档搜索查询包括要回答的问题,并且结果包括所述问题的答案。7.根据权利要求1

6中任一项所述的计算机实现的方法,其中所述排名靠前的段落和所述文档适当子集中的所述返回的一项或多项。8.根据权利要求1

7中任一项所述的计算机实现的方法,其...

【专利技术属性】
技术研发人员:JP
申请(专利权)人:亚马逊技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1