从区域分离的数据存储库中提取并显现主题描述制造技术

技术编号:39416406 阅读:9 留言:0更新日期:2023-11-19 16:07
聚类服务通过利用对于在其中存储数据的区域不可知的机器学习工具包来创建个体主题,所述个体主题具有对存储在不同地理区域中的多个数据分片的参考

【技术实现步骤摘要】
【国外来华专利技术】从区域分离的数据存储库中提取并显现主题描述

技术介绍

[0001]维护和传播企业知识是现代企业面临的一个具有挑战性的过程

维护企业知识的典型过程可以包括从大量不同的企业数据源中提取相关信息

然后,所提取的信息可以被编译成合适的格式,例如知识图谱,其可用于向整个企业的接收者显现适当的信息

知识图谱可以包括主题和相应主题描述的集合

在一些情况下,针对知识图谱内的特定主题的主题描述可以通过对从多个不同企业数据源提取的信息片段进行编译来生成

服务平台随后可以响应于某些类型的用户活动而将来自知识图谱的内容提供给企业的用户

例如,服务平台可以通过从知识图谱获取关于特定主题的信息并经由用户界面将该信息显现给用户来对与该特定主题相关的查询进行响应

[0002]一些现代企业本质上是全球性的,在世界多个不同区域设有办事处

此类全球企业通常拥有跨这些不同区域的多个企业数据源

因此,维护和传播由此类全球企业部署的企业知识的过程通常必须遵守数据主权原则

例如,数据通常受收集数据所在国家的法律和治理结构的约束

因此,从一些企业数据源提取的数据可能与从位于不同区域的其他企业数据源提取的其他数据遵循不同的法律

[0003]针对这些和其他考虑,提出了本文所作出的公开内容


技术实现思路

[0004]本文描述的技术提供了有助于从跨多个地理区域分离的企业数据存储库中提取并显现与个体逻辑主题相对应的信息的系统和方法

概括地描述,本文描述的实施例部署聚类服务以在知识库内创建具有对存储在不同地理区域中的多个数据分片
(shard)
的参考的个体主题

例如,存储在第一区域中的第一文档和存储在第二区域中的第二文档可以各自包含与特定逻辑主题
(
例如,特定企业项目

特定人员等
)
相关联的信息

聚类服务可以分析从这两个文档的信息的提取,以输出定义针对整个企业的数据聚类的状态的知识库状态

聚类服务还可以根据从中提取特定逻辑主题的数据片段的区域来对知识库状态进行分片

例如,包含从第一文档提取的信息的第一分片可以被存储在第一区域中,而包含从第二文档提取的信息的第二分片可以被存储在第二区域中

然后,响应于与主题相关联的用户活动,服务平台可以参考知识库状态来识别和重构存储在不同区域中的这些分片,以便向用户呈现关于该主题的经区域提取并分片的信息

[0005]以此方式,本文描述的实施例促进地理上特定的数据提取和数据存储
(
使得能够严格且准确地遵守数据主权原则
)
,同时促进将地理上不可知的主题显现给企业的用户群

例如,可以向整个企业的用户呈现与特定主题相关的等同信息,无论他们位于哪个区域,即使这样的信息是从多个区域分离的数据存储库中提取并以分片形式维护的

这是因为这些分片被存储在获取其底层数据的任何区域中,然后在查询时被重构以显现给用户

[0006]此外,如下文更详细描述的,本文描述的一些实施例进一步促进自动更新知识库状态,并迁移相应分片以适应企业数据源从一个区域到另一区域的迁移,无需对企业的数据进行重新提取和重新聚类

例如,响应于确定租户站点
(
例如,
SharePoint
站点或
Exchange
邮箱
)
已经从特定区域移动到不同区域,可以从该特定区域读取从与租户站点相关联地存储的数据生成的知识库状态的分片,并且根据租户站点已经移动到的不同区域来对所述分片进行重新分片

[0007]在示例性实施方式中,系统可以部署一个或多个数据挖掘工具包来分析跨多个地理区域存储的企业数据

数据挖掘工具包的这种分析可以使得从存储在第一区域中的第一文档和存储在第二区域中的第二文档中的每一个文档中提取关于特定逻辑主题的信息

由工具包生成的并且与特定逻辑主题相关联的个体提取物可以被写入与从中获得底层数据的区域相对应的对象存储库

因此,来自第一文档的第一提取物将被存储在第一区域中,并且来自第二文档的第二提取物将被存储在第二区域中

[0008]然后,聚类服务可以分析由数据挖掘工具包生成的提取物,以输出定义跨整个企业的数据聚类的状态的知识库状态

例如,聚类服务可以生成和
/
或定义多个提取物之间的关系和
/
或链接,所述多个提取物各自与特定逻辑主题相关并且被存储在世界的不同区域中

提取物之间的关系和
/
或链接在一些情况下可以形成与特定逻辑主题相关的凝聚性概要,例如主题描述

[0009]聚类服务还可以根据从其生成与特定逻辑主题相关联的提取物的区域来对知识库状态进行分片

例如,聚类服务可以基于从第一文档获得的提取物创建第一分片,并且基于从第二文档获得的另一提取物创建第二分片

这些分片中的每一个分片都可以在与特定逻辑主题相关的知识库状态内被参考,同时被存储在由挖掘工具包提取该分片中包含的数据的任何区域中

[0010]然后,响应于与特定逻辑对象相关联的用户活动,服务平台可以参考知识库状态来识别并且然后重构各自对应于特定逻辑对象并且跨多个区域存储的分片

例如,在聚类服务将存储在不同区域的多个分片关联在一起以形成特定逻辑主题的凝聚性主题描述或摘要的情况下,服务平台可以在查询时一起识别和重构这些分片,以与区域上不可知的方式向整个企业的用户呈现相同的信息,即使与特定逻辑主题相对应的分片基于所提取或挖掘的数据最初被获得的位置以区域特定方式被存储

[0011]应当理解,上述专利技术主题也可以被实现为计算机控制的装置

计算机过程

计算系统,或者诸如计算机可读介质的制品

通过阅读下文的具体实施方式以及浏览相关联的附图,这些以及各种其他特征将是显而易见的

[0012]提供本
技术实现思路
以便以简化的形式对下面在具体实施方式中进一步描述的若干构思进行介绍


技术实现思路
并不旨在标识要求保护的专利技术主题的关键特征或重要特征,也不旨在表示本
技术实现思路
用于限制要求保护的专利技术主题的范围

此外,要求保护的专利技术主题不局限于解决本公开内容的任何部分中指出的任何或所有缺点的实现

附图说明
[0013]参考附图描述了具体实施方式...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种计算机实现的方法,所述方法包括:接收语料库,所述语料库至少包括:存储于在第一区域内操作的至少一个第一企业计算资源内的第一企业数据,以及存储于在第二区域内操作的至少一个第二企业计算资源内的第二企业数据;将所述语料库输入到被配置为输出与多个主题相对应的数据提取物的机器学习
(ML)
模型中;从所述
ML
模型接收输出,所述输出至少包括:从所述第一企业数据提取的第一数据提取物,以及从所述第二企业数据提取的第二数据提取物;基于所述输出,生成知识库
(KB)
状态,所述
KB
状态定义特定主题与至少以下项之间的参考:基于所述第一数据提取物生成的第一
KB
分片,以及基于所述第二数据提取物生成的第二
KB
分片;使得所述第一
KB
分片被存储在所述至少一个第一企业计算资源内;以及使得所述第二
KB
分片被存储在所述至少一个第二企业计算资源内
。2.
根据权利要求1所述的计算机实现的方法,还包括:生成站点区域图,其至少包括:所述第一
KB
分片和所述
ML
模型从中提取所述第一
KB
分片中的第一信息的第一数据对象之间的关联,以及关于所述第一数据对象被存储于在所述第一区域内操作的所述至少一个第一企业计算资源内的指示
。3.
根据权利要求2所述的计算机实现的方法,还包括:检测所述第一数据对象从在所述第一区域内操作的所述至少一个第一企业计算资源到在第三区域内操作的至少一个第三企业计算资源的迁移;响应于所述迁移:使得所述第一
KB
分片被存储于在所述第三区域内操作的所述至少一个第三企业计算资源内;以及更新主题区域图以指示所述第一数据对象被存储于在所述第三区域内操作的所述至少一个第三企业计算资源内
。4.
根据权利要求1所述的计算机实现的方法,还包括:将所述
KB
状态提供给至少一个服务平台,所述至少一个服务平台被配置为通过重构存储在所述至少一个第一企业计算资源内的所述第一
KB
分片和存储在所述至少一个第二企业计算资源内的所述第二
KB
分片来显现所述特定主题
。5.
根据权利要求4所述的计算机实现的方法,其中,所述至少一个服务平台在所述第一区域内操作,并且其中,所述至少一个服务平台还被配置为将区域特定查询发送到所述至少一个第二企业计算资源以请求所述第二
KB
分片
。6.
根据权利要求1所述的计算机实现的方法,其中:所述第一
KB
分片不被存储在所述至少一个第二企业计算资源中;并且所述第二
KB
分片不被存储在所述至少一个第一企业计算资源中
。7.
根据权利要求1所述的计算机实现的方法,还包括:在所述第一区域处接收来自客户端设备的与所述特定主题相对应的请求;响应于所述请求,向所述至少一个第二企业计算资源发送区域特定查询以请求所述第二
KB
分片;
在所述第一区域处从所述至少一个第二企业计算资源接收所述第二
KB
分片;以及在所述第一区域处将所述第一
KB
分片和所述第二
KB
分片重构为所述特定主题
。8.
一种系统,其包括:一个或多个处理器;以及至少一个计算机存储介质,其具有存储在其上的计算机可执行指令,所述计算机可执行指令在由所述一个或多个处理器执行时使得所述系统:接收语料库,所述语料库至少包括:存储于在第一区域内操作的至少一个第一企业计算资源内的第一企业数据,以及存储于在第二区域内操作的至少一个第二企业计算资源内的第二企业数据;将所述语料库输入到被配置为输出与多个主题相对应的数据提取物的机器学习
(ML)
模型中;基于所述输出,生成知识库
(KB)
状态,所述
KB

【专利技术属性】
技术研发人员:D
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1