管理和测量知识发现过程中的语义覆盖范围制造技术

技术编号:39274572 阅读:7 留言:0更新日期:2023-11-07 10:52
提供了在探索和优化之间进行平衡的过程,以及应用于密集询问预算的非结构化数据的知识发现过程。自然语言文本可由自然语言处理模型处理,例如处理成相应的向量。示例NLP模型的输出向量(或其中的中间向量)可包括多于500个维度,并且在许多情况下包括700至800个维度。过程可以通过定义与评估相对应的语义空间的几何特征(例如大小或相对距离矩阵)来管理和测量语义覆盖,在该评估期间,基于自然语言文本的向量获得自然语言文本。执行该过程的系统可以通过降低向量的维度同时保持它们在高维形式和缩减维度形式之间的相对距离来生成语义空间的可视化,该语义空间可缩减到潜在嵌入空间或者是潜在嵌入空间。空间或者是潜在嵌入空间。空间或者是潜在嵌入空间。

【技术实现步骤摘要】
【国外来华专利技术】管理和测量知识发现过程中的语义覆盖范围
相关申请的交叉引用
[0001]本申请是要求于2020年10月1日提交的、申请号为63/086,542的美国临时申请的权益。出于所有目的,上述申请的全部内容通过引用并入本文。

技术介绍

1、领域
[0002]本专利技术总体上涉及人工智能,并且更具体地,涉及利用应用于具有密集询问预算(tight interrogation budgets)的非结构化数据的知识发现过程在探索(exploration)和优化之间的平衡。2、相关技术的描述
[0003]人工智能可采取多种形式,具有各种权衡(trade

offs)和相对强度。示例包括各种形式的机器学习和专家系统。通常,人工智能应用程序经历训练阶段或其他配置阶段,其中,参数是基于训练集配置的,然后是运行时间阶段,其中,训练后的应用程序用于产生响应于运行时间输入的输出。

技术实现思路

[0004]以下是本技术的一些方面的不详尽的清单。在以下公开中描述了这些方面和其他方面。
[0005]一些方面包括在探索和优化之间进行平衡的计算机执行过程以及应用于具有密集询问预算的非结构化数据的知识发现过程。示例性过程的一些方面可以包括通过计算系统获得多个自然语言文本。计算系统可以例如使用自然语言处理模型来确定每个文本的高维向量表示,其中这种高维向量表示包含多于50或多于500个维度,并且在一些示例中在700至800个维度之间。计算系统可以例如利用编码器模型将每个高维向量表示缩减为具有较少维度的缩减向量表示,例如小于20或小于10个维度。三个维度可以对应于三维潜在嵌入空间内的位置数据。计算系统可以基于其相应的位置数据将每个缩减向量表示嵌入在三维潜在嵌入空间内,并确定三维潜在嵌入空间内具有低于阈值的向量密度的至少一个区域。基于该确定,计算系统可以为至少一个区域更新优先级值,以偏向于对与至少一个区域相对应或被识别为至少一个区域的自然语言文本的选择。
[0006]示例性过程的一些方面可包括利用计算机系统获得要确定的选项之间的排名的选项集。计算系统可以从选项集中选择包括从选项集中选择的选项子集的第一样本。计算系统可以从第一排名实体接收第一选项样本内的选项之间的排名的指示。选项的测试会增加新的选项。例如,计算系统在从其他排名实体接收到针对其他样本的排名的至少一些指示后,可以用至少一个新选项来增加选项集。然后,计算系统可以从增强选项集中选择包括来自增强选项集的选项子集的第二样本,并且第二子集中的一个或多个选项可以是新选项。计算系统可以接收来自第二排名实体的选项的第二样本内的选项之间的排名的指示。概率分布可以由计算系统确定,以基于样本的排名的指示来评估选项集中的每个选项相对
于每个其他选项的性能,从而由计算机系统基于性能的评估来输出选项集中选项之间的排序的指示。
[0007]一些方面包括存储指令的有形、非暂时、机器可读的介质,当指令由数据处理设备执行时使数据处理设备包括上述过程的操作。
[0008]一些方面包括一种系统,包括:一个或多个处理器;以及存储指令的存储器,这些指令在由处理器执行时使处理器执行上述过程的操作。
附图说明
[0009]当鉴于以下附图阅读本申请时,将更好地理解本技术的上述方面和其他方面,其中相同的数字表示相似或相同的元件:
[0010]图1是根据一些实施方式的用于执行专家系统的示例性计算环境;
[0011]图2是根据一些示例性实施方式的可以在其上执行本技术的专家系统的示例性机器学习和训练环境;
[0012]图3A是根据一些实施方式的示例性机器学习模型;
[0013]图3B是根据一些实施方式的机器学习模型的示例性组件;
[0014]图4A是根据一些示例性实施方式的用于确定对齐的测量可以基于的相关分数的示例性过程的流程图;
[0015]图4B是根据一些示例性实施方式的对探索和优化进行平衡的语义空间进行采样的示例性过程的流程图;
[0016]图5A和图5B示出了根据一些示例性实施方式的在示例性评估期间探索的语义空间的可视化示例,以及用户可以通过其与可视化交互和修改可视化的用户界面;
[0017]图5C是根据一些示例性实施方式的用于管理和测量语义覆盖范围(semantic coverage)的示例性过程的流程图;
[0018]图6A、图6B和图6C示出了根据一些示例性实施方式的扩展A/B测试(scale A/B test)的示例性过程的特征相对应的可视化示例;
[0019]图6D是根据一些示例性实施方式的用于扩展A/B测试的示例性过程的流程图;
[0020]图7是根据一些示例性实施方式的用于生成概率网络(例如概率贝叶斯网络)的图形表示的示例性过程的流程图;
[0021]图8A示出了根据一些实施方式的基于概率图形网络和用于被审计的结果的噪声测量的分布曲线的示例;
[0022]图8B示出了根据一些实施方式的基于概率图形网络和对齐测量的不同特征的分布曲线的示例;
[0023]图9是根据一些示例性实施方式的根据基于概率图形网络所确定的分布来确定测量的示例性过程的流程图;以及
[0024]图10是示出了可以执行上述技术的某些方面的计算装置(或数据处理系统)的示例的物理架构框图。
[0025]虽然本技术易受各种修改和替代形式的影响,但其具体实施方式在附图中以示例的方式示出,并且将在本文中详细描述。附图可以不是按比例的。然而,应该理解,附图及其详细描述并不旨在将本技术限制为公开的特定形式,相反,其意图是涵盖落入如权利要求
所限定的本技术的精神和范围内的所有修改、等同物和替代方案。
具体实施方式
[0026]为了缓解本文所述的问题,专利技术人必须专利技术解决方案,并在一些情况下同样重要的是,必须认识到人工智能领域中其他人忽视(或尚未预见)的问题。事实上,专利技术人希望强调的是,识别那些初期出现且在未来变得更加明显的问题的困难将会如专利技术人所预期的那样应该在行业内一直继续的趋势。此外,由于解决了多个问题,所以应该理解,一些实施方式是针对特定问题的,并所有实施方式并不是解决了本文所述的传统系统的每个问题或提供了本文所描述的每个益处。也就是说,下文描述了解决这些问题的各种排列的改进。
[0027]应用人工智能技术的一个子域被称为知识发现。人工智能技术的任务是从各种来源提取(或分类)知识(或对感兴趣的数据进行其他识别和分类)。在这个(和其他)子域中,用于从各种来源提取知识(或识别感兴趣的数据)的传统技术传统上依赖于从存储在数据库或其他语料库中的结构化数据集获得的输入,以输出有意义的结果。探索和管理此类结构化数据集不仅繁重,而且限制了将此类人工智能技术部署到存在这些结构化数据集的应用中。在用于知识发现的许多潜在应用中,无论是现有的还是新的或不可预见的,用于处理的结构化数据集中的结构数据的初步任务通常是不切实际的。因此,各种人工智能技术已被用于处理非结构化输入数据,但这些尝试的特点是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机执行的方法,包括:通过计算系统,获得多个自然语言文本;通过具有自然语言处理模型的计算系统,确定包括多于500个维度的每个文本的高维向量表示;通过具有编码器模型的计算系统,将每个高维向量表示缩减为具有少于20个维度的缩减向量表示,其中,所述维度中的3个维度对应于三维潜在嵌入空间内的位置数据;通过所述三维潜在嵌入空间内的计算系统,基于其相应的位置数据来嵌入所述缩减向量表示中的每一个;通过计算系统,确定所述三维潜在嵌入空间内具有低于阈值的向量的密度的至少一个区域;以及通过计算系统,对所述至少一个区域更新优先级值,以使与所述至少一个区域相对应或被识别到的自然语言文本的选择产生偏差。2.根据权利要求1所述的方法,其中:所述自然语言文本中的一个给定自然语言文本的缩减向量表示的位置数据指示所述自然语言文本的语义内容。3.根据权利要求1所述的方法,其中:所述三维潜在嵌入空间对应于具有基于所述缩减向量表示的所述位置数据而确定大小的维度的体积。4.根据权利要求1所述的方法,其中:所述自然语言文本中的一个给定自然语言文本的缩减向量表示的位置数据指示所述自然语言文本的语义内容;所述三维潜在嵌入空间对应于具有基于所述缩减向量表示的所述位置数据而确定大小的维度的体积;以及所述三维潜在嵌入空间的所述维度指示包括所述自然语言文本的语义空间。5.根据权利要求4所述的方法,还包括:基于所述维度初始化所述语义空间的体积的三维可视化;以及基于所述体积的取向和所述缩减向量表示的所述位置数据,针对每个缩减向量表示确定在所述体积的所述三维可视化内可视地表示所述缩减向量表示的位置。6.根据权利要求5所述的方法,还包括:经由图形用户界面,接收对所述体积的取向的改变的指示;以及基于所述体积的所述取向的改变,确定所述缩减向量表示的更新位置。7.根据权利要求5所述的方法,其中:每个缩减向量表示的所述视觉表示能够包括点和分配给所述点的数值,其中,所述数值指示与所述自然...

【专利技术属性】
技术研发人员:托马斯
申请(专利权)人:克劳德斯玛特有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1