数据语义化器制造技术

技术编号:2920512 阅读:273 留言:0更新日期:2012-04-11 18:40
一种计算机实现的方法,包括:定义一组注解元素以将概念映射到作为输入数据的电子数据;根据该组定义的注解元素和输入数据的样本生成映射规则;通过将该映射规则应用于输入数据而将概念映射到输入数据;以及基于从概念到输入数据的映射生成输入数据的语义实例。该组将概念映射到输入数据的注解元素是对应输入数据选出的本体、从选出的本体中选出的本体概念、样本输入数据中的词或词组到从选出本体中选出的本体概念的映射、以及与样本输入数据的结构相关的被映射的词或词组的范式。

【技术实现步骤摘要】

本专利技术一般地涉及一种为数据提供语义信息的方法和计算机系统。更具体地,本专利技术涉及一种用语义注解大量半结构化或者非结构化数据的方法和计算机系统。
技术介绍
包括计算、网络和检测设备等在内的技术进步已导致大量的数据被产生。通常需要对收集的数据进行分析,而且传统上这在单个应用内完成。然而,在诸如生物情报学、气象学等许多领域中,由一个应用产生/收集的数据可能需要进一步用于其他应用中。此外,往往希望各学科间的合作,尤其是在科学界。因此,一个关键问题是交换信息的能力方面的协同性(句法协同性)和使用被交换的信息的能力方面的协同性(语义协同性)。IEEE标准计算机词典IEEE标准计算机术语表汇编(ACompilation of IEEE Standard Computer Glossaries),IEEE,1990。涉及信息的基于本体的表达的常规语义环球网(即“网络”)技术使得计算机和人类之间能够合作,并且可以用来帮助数据共享和管理。通过本体表达(ontological representation),领域中的实体和关系的建模使得软件和计算机可以前所未有地处理信息。常规语义网络技术是环球网的扩展,该技术依赖于对网页的检索并且将该网页带到语义网页级。因此,常规语义网页技术处理被认为是完全结构化文件的网页,网页为标签文件(tagged document),诸如超文本链接标记语言(HTML)文件。此外,常规语义网络技术仅用于表达,而不用于任务计算(即,计算设备任务处理的计算设备)。WEB SCRAPER软件是将作为结构化文件的网页带到语义级的常规语义网络技术的一个示例。然而,将语义加入半结构化或者非结构化数据(诸如平面文件(flat file))中并非微不足道的任务,而且传统上这个功能以逐案(case-by-case)的方式(每个输入数据地)完成,这种方式可能枯燥并且易于出错。即使当自动进行注解时,这种自动也仅限于要被注解的特定领域。因此,现有的针对半结构化和非结构化数据注解的方法完全依赖用户的知识和手工处理,这不适合于注解任意格式和任意领域的大量数据,因为这种现有的数据注解方法太枯燥并易于出错以致于无法用于任意格式和任意领域的大量数据。例如,现有的方法,诸如GENE ONTOLOGY(GO)注解和南加州大学信息科学研究所(ISI)的TRELLIS,完全依赖用户的知识、是数据专用的,并且基于每个输入数据,这会枯燥且易于出错。具体地,GENE ONTOLOGY(GO)提供用基因本体注解的语义数据,但是GO仅能用于基因产品并且严重依赖基因产品方面的专业知识(即,基本为手工注解,并且即使提供了某种类型的自动化,该自动化也仅限于或专用于基因产品领域)。此外,在TRELLIS中,用户通过观察、观点和结论将语义注解加入文件中,但是TRELLIS同样严重依赖于用户基于他们的专业知识来加入新的知识,并且在TRELLIS中,语义注解导致每个被考察的文件一个语义实例。为了充分利用半结构化或者非结构化格式的任何收集数据用于成功的数据共享和管理,非常需要更容易地用语义注解数据的方法。
技术实现思路
一种计算机系统,帮助用户用语义注解包括半结构化到非结构化的电子数据在内的任何格式、任何领域的大量电子数据。因此,本专利技术提供了任何格式和任何领域的电子数据的本体表达。这里说明的实施例是计算机实现的方法和系统定义一组注解元素,以将概念映射到作为输入数据的电子数据;按照所定义的注解元素集和输入数据的样本,生成映射规则;通过对输入数据应用该映射规则将概念映射到输入数据;并且基于概念对输入数据的映射生成输入数据的语义实例。根据所述实施例的一方面,将概念映射到输入数据的该组注解元素是相应于输入数据选出的本体、从选出的本体中选出的本体概念、样本输入数据中的词或词组(作为数据点)对从选出的本体中选出的本体概念的映射、以及与样本输入数据的结构相关的被映射词或词组的范式。以上和附加的方面和优点部分将在下面的说明中阐明,部分将从该说明中明了或通过实践所描述的实施例来领会。附图说明通过下文描述和主张的结构和操作的细节,这些以及其他方面和优点随后将清楚明了,对附图的参照也构成其一部分,其中相同的附图标记通篇代表相同的部分。图1是根据本专利技术的实施例的语义化数据的流程图。图2是根据本专利技术的实施例的语义化作为输入电子数据的电邮文本的流程图。图3是根据本专利技术的实施例的数据语义化器的功能框图。图4是根据本专利技术的实施例的数据语义化器的计算机显示的图形用户界面的示例图。图5是根据本专利技术的实施例对作为要被注解的输入电子数据的示例的生物信息数据进行语义化的流程图。图6-7是根据本专利技术的实施例的数据语义化器对作为输入电子数据的生物信息进行语义化的图形用户界面的示例图。图8A-8H是根据本专利技术实施例的语义实例的输出的示例。图9是被任务计算环境使用以在计算设备网络中实现任务计算的计算设备网络和本专利技术的数据语义化器的图。具体实施例方式现在将具体说明本专利技术的实施例,这些实施例的示例在附图中示出。下面通过参照附图描述实施例以解释本专利技术。图1是根据本专利技术的实施例的、对数据进行语义化的流程图。本专利技术提供了一种计算机系统作为数据语义化器100,帮助用户用语义注解包括半结构化到非结构化电子数据在内的任何格式、任何领域的大量电子数据108。数据语义化器100使用直观和有效的方法用语义注解任何格式、任何领域的数据108,从而该数据集可以被输入它们的知识库(知识库是解决问题所需的事实和规则的集合)。例如,数据语义化器100可以用于结构化的数据。作为另一个示例,当数据为很好理解的格式时,可以使用数据语义化器100,但是来自不同软件应用程序的各个数据输出可能是独特的。可以看到,各应用(诸如生物信息学分析应用)以很好理解的格式生成数据,但是该应用程序的每次运行可能是独特的。例如,在生物信息学的情况下,BASIC LOCALALIGNMENT SEARCH TOOL(基本本地排列搜索工具(BLAST),该程序将新序列与以前描绘的序列进行比较)的输出随输入参数而改变,并且该输出在匹配序列的数量和匹配序列的位置等方面不同。美国国家健康研究所的国家生物技术信息中心(NCBI)提供了关于BLAST的信息以及同样由Altschul等说明的Basic Local AlignmentSearch Tool,Journal of Molecular Biology,251403-410。与网页不同,在BLAST的输出中没有使用特殊的标签或类似的机制以标识数据结构。数据语义化器100基于选出的本体创建这种半结构化数据的语义实例。一旦提供了语义标签,就可以标识数据属性(这些数据属性原本因输入和输出数据中很多变化而分辨不清)。例如,在BLAST的情况中,可以与该多个输出表达无关地识别实际的基因序列。因此,当没有特殊标签或者类似机制用来标识数据的结构时,可以通过允许本体挑选对任意领域中被视为半结构化到非结构化格式的数据使用数据语义化器100。图1是在控制计算机的计算机软件中实现的数据语义化器100用语义注解任何格式、任何领域的电子数据108的流程图。在图1中,数据语义化器100执行的语义化流程包括规则集生成102(在虚线框中示出)和语义实例本文档来自技高网
...

【技术保护点】
一种计算机实现的方法,包括:定义一组注解元素以将概念映射到作为输入数据的电子数据;根据所定义的该组注解元素和输入数据的样本生成映射规则;通过将该映射规则应用于输入数据将所述概念映射到输入数据;以及基于从概念到 输入数据的映射生成输入数据的语义实例。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:帕特里克约瑟夫阿姆斯特朗纳达哈什米李承妍益冈竜介宋哲炫
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1