利用索引串匹配的上下文盲数据转换制造技术

技术编号:11628701 阅读:91 留言:0更新日期:2015-06-18 20:22
用于将数据从第一形式转换到第二形式而不用参考要被转换的数据上下文的基于计算机的工具和方法。该转换可以通过将源数据与包括用于数据转换的规则(例如,特定于上下文的规则)的外部信息(例如,公共和/或私有模式)相匹配来促进。匹配可以基于优化的索引串匹配技术来执行,该技术可操作以将源数据匹配到上下文相关的外部信息,而无需具体识别源数据或识别的外部信息的上下文。相应地,数据转换可以在无监督机器学习环境中执行。

【技术实现步骤摘要】
【国外来华专利技术】【专利说明】 对相关申请的交叉引用 本申请是于2012年8月28日提交的标题为"SCALABLESTRINGMATCHINGASA COMPO肥NTFORUNSU阳RVIS邸LEARNINGINSEMANTICMETA-M孤化DEVELOPMENT"的美国 专利申请No. 13/596,844的部分接续,该专利全部内容通过引用被完整地结合于此。
本公开内容一般而言设及使用基于计算机的工具将数据从第一形式转换到第二 形式,并且更具体而言,设及可W与无监督学习过程关联地利用索引串匹配,W通过利用至 少部分地基于上下文相关模式与在转换源数据时使用的源数据的索引串匹配而选择的模 式来转换上下文不确定数据的基于计算机的工具。
技术介绍
在各种应用中,可能希望将数据从第一(或输入)形式转换到第二(或目标)形 式。该种转换可W包括,例如,数据相对于语言学、句法和/或格式的改变。在该点上,语言 学差异可能是由于使用了不同的语言,或在单个语言中,由于对术语、专有名称、缩写、特质 (idiosyncratic)短语或结构、W及特定于位置、区域、业务实体或单元、贸易、组织等其它 事物的不同用法。对于当前意图,在语言学的范围内的差异还包括不同的货币、不同的重量 和量度单位W及其它系统的差异。句法可能设及词语的分句(phrasing)、次序和组织,W及 与其相关的语法和其它规则。格式差异可能设及与数据库或其它应用及相关工具相关联的 数据结构或约定。 可W与转换过程关联有利地解决一个或多个该些形式上的差异。转换环境的一些 例子包括:将数据从一个或多个遗留系统导入到目标系统中;相对于一个或多个定义的信 息集合关联或解释外部输入(诸如捜索查询);相对于一个或多个外部文档、文件或其它数 据源关联或解释外部输入;促进系统之间的信息交换;W及翻译单词、短语或文档。在所有 该些情况下,可W使用基于机器(例如,基于计算机)的工具来试图解决输入环境和目标环 境之间语言学、句法和/或格式中的差异。 与基于机器的转换工具相关联的一个困难设及正确地处理上下文相关的转换。在 该种情况下,正确地转换所考虑的上下文相关的项可能取决于关于其中使用该项的上下文 理解一些事物。例如,在产品描述的上下文中,取决于所考虑的产品,"一英寸"的属性值可 能表示一英寸长度、一英寸半径或一些其它维度。在该点上,其中使用"一英寸"的上下文可 能指定数据"一英寸"可允许的和/或正确的转换(例如,到长度、半径或其它维度)。在另 一个例子中,在翻译的上下文中,词语"wa化ing(行走)"在短语"wa化ingshoe(休闲鞋)" 中与在"walkingtowork(步行去工作)"中用途不同。因此,在该些例子化及许多其它例 子中,关于所考虑项的上下文理解一些事物会有利于转换。 虽然很好地认识到了上下文在消除歧义或W其它方式正确转换信息中的价值,但 是在将该个概念应用到基于机器的工具时只实现了有限的成功,特别是在无监督机器学习 中。例如,某些要被转换的数据可能是高度非结构化的和/或w其它方式上下文不确定的。 因此,数据可能不具有指示其中使用源数据的上下文的指示器(例如,或者在数据内部或 可W从外部源得到)。即,数据可能是上下文不确定的,使得数据的上下文不容易被辨认。此 夕F,源数据可能包括多个不同的上下文,使得会在数据中出现源数据的不同子集的上下文。 在该点上,上下文相关的转换可能不可能利用识别在上下文相关数据转换中使用的上下文 的传统方法。
技术实现思路
[000引鉴于上述情况,本文描述的是基于计算机的工具的实施例,其可W用来执行上下 文相关数据的"上下文盲"转换。例如,本文描述的实施例可W用来转换上下文不确定的但 是上下文相关的数据,而无需首先确定其中使用该数据的上下文。目P,数据的上下文可能是 不能查明W在数据的转换中使用的。例如,上下文不确定数据可能包括无可用的上下文提 示的数据、具有冲突的上下文提示的数据、具有比能够被容易识别的多的上下文提示的数 据,或使得难W或不可能准确识别数据的上下文的一些其它属性。 在该点上,可W利用索引串匹配过程,基于相关的特征而不是通过匹配源数据和 模式的上下文来识别类似于要被转换的数据的外部信息(例如,模式)。通过将要被转换的 数据与相关的模式(例如,包含特定于特定上下文的转换规则的模式)相匹配,上下文相关 数据可W关于其中使用它的上下文进行转换,甚至无需确定其中使用该数据的上下文,因 此,上下文盲"的方式进行转换。目P,尽管数据的上下文在转换之前可能没有被具体地 确定,但是类似模式的确定(例如,利用索引串匹配过程)可W允许数据基于上下文相关的 转换规则进行转换,即使没有识别其中使用源数据的上下文。 特别地,本文描述的实施例可W识别适用于要被转换的数据的上下文相关模式, 而无需考虑要被转换的数据的上下文或相关模式的上下文。即,实施例可W操作成上下 文盲"的方式运行,其即使在缺少关于源数据的上下文知识的情况下,仍然导致与源数据上 下文有关的一个或多个模式的识别。在该点上,本公开内容可能尤其适合应用在机器学习 上下文中,并且特别是无监督机器学习,其中上下文不确定的数据、没有容易得到的上下文 信息的数据、或者具有数据中表示的许多不同上下文的数据要被转换。 例如,要根据本文描述的方法和装置转换的数据可W是至少部分地非结构化的。 因此,对受监督机器学习传统的方法可能难W适用。例如,考虑到潜在缺乏数据结构,在受 监督学习过程中可能有很少或者没有合格的训练数据可用。在该点上,数据在一定程度上 与给定主题上下文有关,数据的上下文可能是模糊的,使得该上下文在机器学习过程中可 能不能被容易地查明。相应地,考虑到缺乏容易查明的上下文信息连同潜在的上下文相关 转换过程,该种要被转换的非结构化数据在没有实质干预(例如,通过人类用户)的情况下 可能难W从第一形式转换到第二形式。在该点上,该种非结构化数据的转换可能是昂贵的 和/或低效的转换。 但是,本文描述的一种方法包括使用索引串匹配来开发相似性度量,该度量在不 参考要被转换的数据或可用于在转换中使用的模式的上下文的情况下,指示要被转换的数 据和多个模式之间共性。一些串分析工具的实施例可W利用确定性匹配方法和模糊匹配方 法两者提供的优势,W提供用于串(例如,源数据或模式)分析的快速、领域无关的过程。 一般而言,本文描述的串分析工具可W操作来将串(例如,源数据和/或模式)表 示为特征。源串的特征可W与目标串的特征进行比较,W计算源串和目标串之间的相似性 度量。相似性度量可W是表示源串和目标串之间相似性的量化量度(例如,数字值)。例 如,在例子中,相似性度量1可W表示相同的源串和目标串,并且相似性度量0可W表示完 全不相似的源串和目标串。 但是,对于非常大的目标串语料库,为语料库中每个目标串计算相似性度量可能 需要大量的计算资源,使得该种分析可能在成本上和时间上不允许。相应地,可W建立表示 源串和在特定过程中感兴趣的目标串之间最少量相似性的最小相似性度量。最小相似性度 量可W是可调的,W调整串分析工具的性能。在该点上,最小相似性度量可W是可由用户建 立的预定义的值。例如,最小相似性度量越高,执行匹配所需的计算本文档来自技高网
...

【技术保护点】
一种用于在操作将数据从第一形式转换到第二形式的基于计算机的工具中使用的方法,包括:利用基于计算机的工具,识别要从第一形式转换到第二形式的数据集合,其中所述数据集合是上下文不确定的;利用基于计算机的工具,访问多个模式,每个模式包括用于在数据的特定上下文中转换数据的一个或多个转换规则,其中所述一个或多个转换规则至少部分地基于所述特定上下文;利用基于计算机的工具,利用独立于所述数据集合和所述多个模式的上下文执行的索引串匹配,将所述数据集合与所述多个模式的至少一部分进行比较;利用基于计算机的工具,至少部分地基于所述比较,从所述多个模式中选择选定的模式;将所述选定的模式的一个或多个转换规则应用到所述数据集合,以将所述数据集合从所述第一形式转换到所述第二形式。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:P·戈伦L·里瓦斯E·A·格林
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1