根据机器可读词典建立概念知识的计算机系统及方法技术方案

技术编号:2870816 阅读:187 留言:0更新日期:2012-04-11 18:40
一种用于根据机器可读词典建立概念知识的计算机系统,包括:    机器可读词典,包含多个第一语种的词语和与之对应的多个第二语种的解释词语,以及多个第二语种的词语和与之对应的多个第一语种的解释词语;    输入单元,用于输入种子词语;    解释单元,通过查询所述机器可读词典,获得与所述种子词语对应的多个第二语种的解释词语;以及    反向解释单元,通过查询所述机器可读词典,分别获得与所述解释步骤中获得的多个解释词语相对应的多个第一语种的解释词语,作为概念知识的词语。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及计算机数据处理,具体地,本专利技术涉及利用计算机建立概念知识的技术。
技术介绍
概念知识由描述一类事件、思想、对象、动作或者意图的一组术语(词语)组成。例如,与“打算/计划”相关的概念知识包括“打算”、“计划”、“希望”、“想要”、“准备”、“意味”、“将要”、“盘算”、“想”、“需要”、“渴望”等等表示打算含义的词语。概念知识被广泛地用于信息检索、自然语言处理、机器翻译和构造分类词典等应用中。人们在检索某一特定领域的信息时,对于这个领域所掌握的概念知识会直接影响他们的检索行为。掌握较完整的概念知识的人能够恰当地构造查询,准备多个用于查询的同义词,当一次尝试不成功时能够适当地改变策略,并且能够正确地识别相关的检索出的信息。因此,某个领域的专家会比掌握很少该领域概念知识的人,在检索信息时,成功率高。如今,因特网已经成为世界范围的信息源和主流商务工具。在因特网上查找信息的最直接、最方便的方式是使用检索引擎。大多数现有的检索引擎采用的是基于关键词的索引系统。概念知识可以帮助用户在纷繁的数据中找到所需的有用信息,帮助用户构造、修改和完善查询条件,自动地扩展查询。另外,在自然语言处理中,统计自然语言处理方法根据在训练语料库(corpus)中字词的频率确定某种字词搭配(或者词的组合)的可能性。当某个词的频率不能保证可靠的最大可能性的估计,则它的概率可以用与其近似的词的概率的加权和来计算。例如,统计自然语言处理方法根据在训练语料库中出现字词的频率确定词的组合的可能性。但是由于语言的本身特点,使得在给定语料库中,许多词的组合出现频率很低或者不出现,这种情况被称为统计自然语言处理中的稀疏数据问题。在这样的情况下,可以使用概念知识中的“最相似”词来估计这些低频或未出现的词的组合的概率。此外,在机器翻译中,例如基于语料库的机器翻译系统,如果需要翻译一个词W,可以使用在相同上下文中出现的同一概念知识中的一组相似的词,来选择一个W的可能的译文。由于概念知识的应用如此广泛,所以人们一直在努力研究获得概念知识的方法。目前提取属于一个特定概念的术语的方法是使用按照知识结构组织的词典,例如WordNet,来提取概念知识。但是,这些词典通常是为通用目的设计的,对于特定的应用领域来说,这类词典提供的概念知识不够详细,无法满足实际应用的具体需求。
技术实现思路
根据本专利技术的一个方面,提供了一种用于根据机器可读词典建立概念知识的计算机系统,包括机器可读词典,包含多个第一语种的词语和与之对应的多个第二语种的解释词语,以及多个第二语种的词语和与之对应的多个第一语种的解释词语;输入单元,用于输入种子词语;解释单元,通过查询所述机器可读词典,获得与所述种子词语对应的多个第二语种的解释词语;以及,反向解释单元,通过查询所述机器可读词典,分别获得与所述解释步骤中获得的多个解释词语相对应的多个第一语种的解释词语,作为概念知识的词语。根据本专利技术的另一个方面,提供了一种用于根据机器可读词典建立概念知识的计算机系统,包括机器可读词典,包含多个第一语种的词语和与之对应的多个第二语种的解释词语,以及多个第二语种的词语和与之对应的多个第一语种的解释词语;输入单元,用于输入种子词语;预处理单元,用于对输入的种子词语进行预处理;解释单元,用于通过查找所述机器可读词典,将一个词语解释为希望语种的多个解释词语;以及,控制单元,用于控制所述解释单元,将所述种子词语解释为多个第二语种的解释词语,并且将这些解释词语分别解释为第一语种的多个解释词语,作为概念知识的词语。根据本专利技术再另一个方面,提供了一种根据机器可读词典利用计算机建立概念知识的方法,所述机器可读词典包含多个第一语种的词语和与之对应的多个第二语种的解释词语,以及多个第二语种的词语和与之对应的多个第一语种的解释词语,所述方法包括提供第一语种的种子词语的步骤;通过查询所述机器可读词典,获得与所述种子词语对应的多个第二语种的解释词语的解释步骤;以及,通过查询所述机器可读词典,分别获得与所述解释步骤中获得的多个解释词语相对应的多个第一语种的解释词语,作为概念知识的词语的反向解释步骤。根据本专利技术再另一个方面,提供了一种在计算机系统中检索数据的方法,包括将输入的关键词作为种子词语,利用上述的建立概念知识的方法,获得属于与所述关键词相关的知识概念的多个词语;利用得到的所述概念知识的词语检索数据。附图说明相信通过以下结合附图对本专利技术具体实施方式的说明,能够使人们更好地了解本专利技术上述的特点、优点和目的。图1是展示根据本专利技术一个实施例的在计算机系统中根据机器可读词典建立概念知识的方法的流程图;图2是展示根据本专利技术另一个优选实施例的在计算机系统中根据机器可读词典建立概念知识的方法的详细流程图;图3是展示根据本专利技术一个优选实施例的在计算机系统中根据机器可读词典建立概念知识的处理过程的示意图; 图4是展示根据本专利技术一个优选实施例的根据机器可读词典建立概念知识的计算机系统的方块图;图5是展示根据本专利技术另一个优选实施例的根据机器可读词典建立概念知识的计算机系统的方块图;图6图示了在英-中双语种的机器可读词典中,词语和解释词语的对应关系的一个例子;图7图示了本专利技术实施例中机器可读词典的一个例子;图8是展示本专利技术实施例中评价单元的结构的方块示意图;图9A-9B是展示根据本专利技术的实施例向用户提供用于选择删除解释词语的选择界面的示意图。具体实施例方式下面就结合附图对本专利技术的各个优选实施例进行详细的说明。机器可读词典被广泛地使用在计算机中,并且技术不断更新,种类也很多,例如,单语种、双语种、多语种、单向的和双向的等等;并且随着自然语言的演变,机器可读词典中的词汇和解释也不断地更新。在机器可读词典中,通常具有一个或者多个语种的词汇以及对应的一个或者多个语种的解释。由于机器可读词典的目的是为了解释词汇的含义,即,使用多个具有相近似含义的词语来解释某个词语(在本文中,“词语”是指词或者词组),因此,机器可读词典很自然地就提供了与一个特定概念相关的多个词语信息。例如,在一个英-中双语种词典中,一个英语词语与多个汉语词语对应,这些汉语词语中的全部或一部分密切相关,属于一个概念知识。图6展示了在英-中双语种的机器可读词典中,词语和对应关系的一个例子。如图6所示,英语的“intend”与多个汉语词语对应,例如,“想要”、“打算”、“准备”、“希望”、“有目的”和“意指”等等。其中,“想要”、“打算”、“准备”、“希望”就是同一概念的密切相关的多个词语。本专利技术正是利用了以上描述的自然语言和机器可读词典的特点,提出了在计算机系统中根据机器可读词典建立概念知识的方法。图1是展示根据本专利技术一个实施例的在计算机系统中根据机器可读词典建立概念知识的方法的流程图。该实施例中,优选地使用双语双向的机器可读词典,例如,包括有英语词汇和汉语词汇以及分别与之对应的汉语解释词语和英语解释词语的机器可读词典。应当指出,本专利技术对于机器可读词典的具体实施方式没有限制,并且也可以是多个机器可读词典组合来实现对词汇的解释。在图1中,首先在步骤100,提供种子词语。种子词语可以由用户通过输入设备输入,例如,在检索引擎的页面中的关键词输入栏中输入,也可以由计算机程序自动生成。在此,将种子词本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:刘世霞杨力平
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利