从词典中包含的术语定义自动地生成本体的设备和方法技术

技术编号:3892435 阅读:173 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及从词典中包含的术语定义自动地生成本体的设备和方法。一种旨在用于自动地生成本体的设备(D),包括分析装置(AM),其用于在每次接收到必须针对其生成本体的术语时,i)访问词典(DC)以确定该接收到的术语的定义,接着ii)从该确定的定义中提取相关术语,接着iii)访问词典(DC)以确定每个提取的相关术语的定义,接着iv)针对接收到的术语和提取的相关术语的每个确定的定义,构建至少一个逻辑子句,该逻辑子句表达其包含的相关术语对之间的关系,这些构建的逻辑子句定义接收到的术语的本体。

【技术实现步骤摘要】

本专利技术涉及文档的分析,并且更具体地,涉及用于自动地生成在文档分析或处理的环境内使用的本体(ontology)的方法和设备。
技术介绍
根据本专利技术,此处术语"自动地生成"的意思是能够从术语定义自 动地生成和完成本体。此外,此处术语"本体"描绘在给定的域内操作的术语(或概念) 以及这些术语(或概念)之间的关系的一种形式描述(或数据模型)。本体特别用于推论出在域内存在的对象。正如本领域技术人员所已知的,越来越多的应用使用本体以侵_允许或参与或促进对文档的分析或处理。这特别是下面的情形根 据规范自动地构建可执行应用的设备,或用于自动地在CRM ("客 户关系管理,,)中处理进入的电子邮件的文本分析器,或能够从自然 语言请求中找到相关信息的"语义搜索引擎"。因此,在个性配置中,令全面和精确描述可能包含在文本中的 术语(或概念)的本体易于被分析或处理是相当重要的。现今,在专用工具的辅助下可以人工地构建本体,专用工具例 如"Protege,,(其具体地在因特网地址"http:〃protege.standford.edu,,处 描述)。这不是令人满意的,因为每当文本(或文档)包括的术语 (或概念)在本体中还不存在对等体时,该文本的一部分不能够被 正确地分析或处理,直到专家人工地在本体中构建相应的条目。类 似地,如果在文本中使用该术语(或概念)的同义词(或下义关系, 或反义词...),则该文本的整个意义将被误解,原因是缺少该术语 的相关定义或与其他的有用术语的关系。
技术实现思路
因此,本专利技术的目的是通过允许本体的自动生成来改善这种情况。为此,提供一种用于自动地生成本体的方法,包括在每次接收到必须针对其生成本体的术语时 -确定该接收到的术语在词典中的定义,接着 -从该确定的定义中提取相关术语,接着-确定这些提取的相关术语中的每个相关术语在词典中的定义,接着 -针对接收到的术语和提取的相关术语的每个确定的定义,构建至少这些构建的逻辑子句定义接收到的术语的本体。且特别地-在构建了逻辑子句后,可以将它们转换成选择的本体语言; >可以通过转换表来对逻辑子句进行转换; >可以从至少包括OWL ("本体Web语言")和RDF ("资源 描述框架")的语言组中选择本体语言。 本专利技术也提供一种用于自动地生成本体的设备,并且该设备包 括分析装置,其设置成在每次接收到必须针对其生成本体的术语时, 用于-访问词典以确定该接收到的术语的定义,接着-从该确定的定义中提取相关术语,接着-访问词典以确定每个提取的相关术语的定义,接着-针对接收到的术语和提取的相关术语的每个确定的定义,构建至少一个逻辑子句,该逻辑子句表达其包含的相关术语对之间的关系,这些构建的逻辑子句定义接收到的术语的本体。根据本专利技术的设备可以包括可单独或组合考虑的附加特性,并 且特别地-其可以进一步包括转换装置,用于将构建的逻辑子句转换成选择的本体语言;>转换装置可以被设置用于通过转换表来对逻辑子句进行 转换;'其可以进一步包括存储装置,用于存储转换表; >可以从至少包括OWL和RDF的语言组中选择本体语言。 本专利技术也提供 一 种计算机软件产品,其包括例如上面介绍的设备。附图说明在研究以下的详细说明书和附图后,本专利技术的其他特征和优势 将变得明显,其中附图1示意性地图示出根据本专利技术的设备的实施 方式的例子。附图不仅用于完善本专利技术,而且如果需要,也用于解释本专利技术 的定义。具体实施例方式本专利技术的目的在于提供一种设备(D)和相关方法,旨在从在词 典中包含的术语定义自动地生成本体。本专利技术针对以形式方式来描述在任意类型的域内操作的术语 (或概念)以及这些术语(或概念)之间的关系的任意本体。应该注意,根据本专利技术的设备D可以是例如旨在分析或处理文 本或文档的设备或应用的一部分,或者连接到该设备或应用。因此, 这样的设备D可以是由软件模块或电子电路(或硬件模块)或硬件和软件模块的组合构成的计算机电子产品。正如在图1中示意性图示地,根据本专利技术的设备D至少包括分 析模块AM。分析模块AM被设置成每当其设备D接收到必须针对其生成本 体的术语(或概念)时介入。从而,当接收到术语时,分析模块AM访问至少一个词典DC以确定该冲妄收到的术语的定义。如所图示的, 词典DC可以存储进设备D的第一存储装置SM1中。但这不是强制 性的。相反,词典DC也可以4皮存储进设备D可访问的外部存储装 置中,例如可以通过通信网络存储到远端服务器上。可以使用能够存储至少一个词典DC并且对于本领域技术人员 来说是已知的任意类型的第一存储装置SM1。因此,其可以是数据 库、闪存、ROM、 RAM、 CD ("压缩盘,,)或DVD ("数字视频盘")、 平面文件系统或任意其他类型的库。例如,如果分析模块AM必须构建描述"翻译"的概念的"语义" 的本体,则其确定概念"翻译"在词典DC (此处存储进第一存储装置 SM1中)中的定义。该定义可以是"将文本从一种语言转换成另一种 语言的动作"。接着分析模块AM提取其所确定的术语(或概念)定义中包含 的相关术语。为此目的,其可以执行对定义的语义分析。"短语中的 相关术语,,是成为短语的"语义骨架"的单词或单词组(或"词串,,), 即主要的名词和动词。例如,在句子"将文本从一种语言转换成另一 种语言的动作"中,相关术语是"转换的动作"(即,"转换")、"文本" 和"语言"。从而,对于概念"翻译",其定义的相关术语是"转换"、"文本"和 "i'五古"^口口 o当分析模块AM已经提取定义中包含的相关术语时,其再次访 例如,在概念"翻译"的情况下-提取的相关术语"转换"的定义是"将事物转换或改变成另外的形式、 物质、状态或产品",-提取的相关术语"文本"的定义是"包含多个字符、符号或语句的书面 文章,,,以及-提取的相关术语"语言,,的定义是"使用口语单词或使用代表单词或 语因的符号的通信系统"。当分析模块AM已经确定从接收到的术语(或概念)的定义中所提取的每个相关术语的定义时,其针对接收到的术语(或概念) 和提取的相关术语的确定的定义中的每个来构建至少一个逻辑子辑子句的集合定义了接收到的术语(或概念)的本体。在此术语"子句"必须在布尔巴基(Bourbaki)的集合论的意义下进行理解。例如,在概念"翻译"的情况下 -"翻译"的定义给出下面的逻辑子句> "翻译是转换的动作",> "转换涉及文本",以及> "文本从一种语言转换成另一种语言", -"文本"的定义给出了下面的逻辑子句> "文本是书面文章",> "文章包括若干个字符",或> "文章包括若干个符号",或> "文章包括若干个语句",> "语句是一组单词",以及> "语句具有语法结构"。应该注意,分析模块可以被划分成两个子模块,第一个子模块 用于访问词典DC以确定定义,而第二个子模块用于提取在由第一 子模块所确定的定义中包含的相关术语。如在附图l的非限制性例子中所示,根据本专利技术的设备D也包 括转换模块CM。该转换模块CM旨在将(由分析模块AM所构建的) 逻辑子句转换成选择的本体语言,例如OWL("本体Web语言")或 RDF ("资源描述框架")。应该注意,OWL和R本文档来自技高网...

【技术保护点】
一种用于自动地生成本体的方法,其特征在于,所述方法包括在每次接收到必须针对其生成本体的术语时: i)确定所述接收到的术语在词典(DC)中的定义,接着 ii)从所述确定的定义中提取相关术语,接着 iii)确定每个提取的相关术 语在所述词典(DC)中的定义,接着 iv)针对所述接收到的术语和所述提取的相关术语的每个所述确定的定义,构建至少一个逻辑子句,所述逻辑子句表达其包含的相关术语对之间的关系,所述构建的逻辑子句定义所述接收到的术语的本体。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:P拉尔韦F卡雷
申请(专利权)人:阿尔卡特朗讯
类型:发明
国别省市:FR[法国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利