System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 通用数据语言翻译器制造技术_技高网

通用数据语言翻译器制造技术

技术编号:41077220 阅读:2 留言:0更新日期:2024-04-24 11:35
本公开涉及通用数据语言(UDL)翻译器。具体地,所公开的系统和方法使得来自多种来源的输入数据能够被翻译成可以被一致地分析并与其他数据源进行比较的UDL。例如,实体可以上传具有多个数据术语和定义的输入数据(例如,电子表格中的标题列)。这些术语相对于基础数据可以是重复的和/或不准确的。如果实体希望在数据市场内比较和交易数据,实体可能不完全理解它缺失什么数据和/或另一个实体可以提供什么数据进行交易。为了弥补业务语义管理的该问题,本发明专利技术公开了用于创建UDL和UDL翻译器的步骤,使得任何输入数据都可以被翻译为UDL。

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及用于将输入数据翻译成通用数据语言的系统和方法。


技术介绍

1、实体维护大量数据,这些数据可以包含不同语义结构并使用指代相同对象或元素的不同术语。为了调和(harmonize)这些语义差异,离不开效率低下且容易出错的手动且费力的过程。典型的语义集成是手动的,脆弱的,在没有专门的资源来确保一致和持续的语义协调的情况下,很容易就会过时。另外,许多实体不仅在它们自己的企业内,而且还在不同的企业之间在其数据管理工作中管理冗余的业务语义。例如,一个特定的数据元素可以有与之相关的两个不同的语义标识符,特别是出于规则遵从性的原因。然而,对于这两个语义标识符而言,基础数据元素是相同的。在现今的当下市场中,使用费力且容易出错的手动过程来确定和调和这些语义差异。

2、经常给实体带来问题的某些常见内容包括(i)业务术语和定义,(ii)对数据资产和数据模型的引用,(iii)管理适当数据使用的策略,和/或(iv)常用的数据分类和信息敏感度分类等。在一些场景中,实体管理的多达35-40%的数据是冗余的并且包含不同的(并且有时是冲突的)标识符,导致组织膨胀和低效。具体地,当将不同的标识符用于相同的基础数据元素时,运行内部数据分析变得有问题,因为组织可能没有意识到标识符的重复性。这可能导致忽略某些数据,从而创建错误的数据集,进而可能导致不准确的数据分析。

3、因此,对能够应对现代商务语义的挑战(包括使用翻译服务高效地确定重复且冗余的数据并随后调和该数据)的系统和方法,存在增加的需求。

4、针对这些和其他一般考虑,作出了本文所公开的多个方面。此外,尽管可以讨论相对具体的问题,但应当理解,示例不应限于解决在本公开的
技术介绍
或其他地方确定的具体问题。


技术实现思路

本文档来自技高网...

【技术保护点】

1.一种用于将输入数据翻译成通用数据语言的系统,包括:

2.根据权利要求1所述的系统,其中,所述处理器还被配置为:

3.根据权利要求2所述的系统,其中,确定所述至少一个数据术语是否是已经存在的UDL术语的重复包括:用所述已经存在的UDL术语库将所述至少一个数据术语中的每个单词或每个字符与每个单词或每个字符进行比较。

4.根据权利要求2所述的系统,其中,确定所述至少一个数据术语是否是已经存在的UDL术语的重复包括:将所述至少一个数据术语的定义与所述已经存在的UDL术语库的定义进行比较。

5.根据权利要求4所述的系统,其中,所述至少一个数据术语的所述定义是至少一个等式。

6.根据权利要求1所述的系统,其中,所述UDL库包括来自至少一个可信源的多个定义。

7.根据权利要求6所述的系统,其中,所述至少一个可信源是以下中的至少一种:业务术语表的发布者,字典的发布者,以及特定于行业的本体的发布者。

8.根据权利要求1所述的系统,其中,所述处理器还被配置为:将所述至少一个数据术语格式化以符合针对所述至少一个UDL术语的格式。

9.根据权利要求1所述的系统,其中,处理所述至少一个数据术语还包括:评估所述至少一个数据术语的准确度水平。

10.根据权利要求9所述的系统,其中,所述准确度水平基于以下中的至少一种来确定:不活跃度分数和过时分数。

11.一种创建通用数据语言(UDL)翻译器的方法,包括:

12.根据权利要求11所述的方法,其中,所述至少一个可信源是以下中的至少一种:业务术语表的发布者,字典的发布者,以及特定于行业的本体的发布者。

13.根据权利要求11所述的方法,其中,使用所述至少一种机器学习算法来处理所述新接收的数据术语包括:计算所述新接收的数据术语与所述UDL库中的至少一个UDL术语之间的相似度分数。

14.根据权利要求13所述的方法,其中,所述相似度分数是通过将所述新接收的数据术语中的每个字符或每个单词与所述至少一个UDL术语中的每个字符或每个单词进行比较来计算的。

15.根据权利要求13所述的方法,其中,所述相似度分数是通过将所述新接收的数据术语的定义与所述至少一个UDL术语的定义进行比较来计算的,其中,所述新接收的数据术语的所述定义是等式。

16.根据权利要求13所述的方法,其中,所述相似度分数是通过将所述新接收的数据术语的至少一个领域分类与所述至少一个UDL术语的至少一个领域分类进行比较来计算的。

17.根据权利要求13所述的方法,还包括:确定所述新接收的数据术语是否是预先存在的UDL术语的重复。

18.根据权利要求17所述的方法,其中,确定所述新接收的数据术语是否是预先存在的UDL术语的重复包括:评估所述相似度分数。

19.根据权利要求11所述的方法,其中,所述UDL库包括至少一个一般业务本体,至少一个金融本体,以及至少一个生命科学本体。

20.一种非暂时性计算机可读介质,存储有计算机可执行指令,所述计算机可执行指令在被执行时使计算机系统执行用于将输入数据翻译成通用数据语言(UDL)的方法,所述方法包括:

...

【技术特征摘要】
【国外来华专利技术】

1.一种用于将输入数据翻译成通用数据语言的系统,包括:

2.根据权利要求1所述的系统,其中,所述处理器还被配置为:

3.根据权利要求2所述的系统,其中,确定所述至少一个数据术语是否是已经存在的udl术语的重复包括:用所述已经存在的udl术语库将所述至少一个数据术语中的每个单词或每个字符与每个单词或每个字符进行比较。

4.根据权利要求2所述的系统,其中,确定所述至少一个数据术语是否是已经存在的udl术语的重复包括:将所述至少一个数据术语的定义与所述已经存在的udl术语库的定义进行比较。

5.根据权利要求4所述的系统,其中,所述至少一个数据术语的所述定义是至少一个等式。

6.根据权利要求1所述的系统,其中,所述udl库包括来自至少一个可信源的多个定义。

7.根据权利要求6所述的系统,其中,所述至少一个可信源是以下中的至少一种:业务术语表的发布者,字典的发布者,以及特定于行业的本体的发布者。

8.根据权利要求1所述的系统,其中,所述处理器还被配置为:将所述至少一个数据术语格式化以符合针对所述至少一个udl术语的格式。

9.根据权利要求1所述的系统,其中,处理所述至少一个数据术语还包括:评估所述至少一个数据术语的准确度水平。

10.根据权利要求9所述的系统,其中,所述准确度水平基于以下中的至少一种来确定:不活跃度分数和过时分数。

11.一种创建通用数据语言(udl)翻译器的方法,包括:

12.根据权利要求11所述的方法,其中,所述至少一个可信源是以...

【专利技术属性】
技术研发人员:詹姆斯·B·库什曼二世奥尔科·乔希萨蒂恩德·戈埃尔
申请(专利权)人:科里布拉比利时股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1