当前位置: 首页 > 专利查询>王楠专利>正文

基于OWL的互联网语言本体学习系统技术方案

技术编号:7083685 阅读:271 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了基于OWL的互联网语言本体学习系统,其特征在于:其包括:网页采集子系统,负责采集互联网网页并将其转换成格式文本;OWL本体转换子系统,负责对所述格式文本进行OWL本体转换,建立OWL本体实例;OWL推理引擎子系统,负责创建并维护OWL推理引擎,并根据所述OWL推理引擎对所述OWL本体实例进行推理,建立所述互联网网页对应的OWL知识描述;原始文档管理子系统,负责保存和维护所述网页采集子系统采集的所述互联网网页。本发明专利技术对现有互联网以HTML或XML文本为主的海量信息进行OWL分析、提取和转换。本发明专利技术为OWL互联网应用提供了一种全新的极具实用价值的思路,因此其具有非常高的实用价值和广阔的应用前景。

【技术实现步骤摘要】

本专利技术属于计算机
,具体涉及一种学习型的互联网本体语言转换系统。
技术介绍
今天,互联网已经深入人类社会的每个角落,而且可以预见其将在人类文明发展进程中扮演越来越重要的角色。让计算机“读懂”互联网,使得互联网更加智能化是人类的梦想。目前,计算机对互联网信息的处理方式大致可以分为如下几类1)对互联网信息内容和格式不做分析,即把互联网信息作为信息流(字节)进行接收、 存储、查询、发送等等。在这种情况下,互联网信息主要是一些数据,包括数字、字符串、媒体流等;计算机按照软件工程师设计好的流程执行,每一步都在一个预先设计好的已知状态集中匹对和判断当前状态,并决定下一步的执行策略。所有的执行策略都是软件工程师设计好,并事先输入给计算机的。2)对互联网信息内容做关键词匹对分析,这时计算机对互联网文本的“理解”就是该文本可能包含一些用户指定的关键词。计算机并不真懂文章内容,只是在代码级别上的比较,而把所有的理解任务交给人来处理。仅仅在这个水平上,就产生了巨大的搜索引擎产业,并造就了 Google、百度等行业巨头。3)对互联网信息内容和格式做简单的语义识别。目前,主要采用RDF协议对词与词之间的语义做简单的定义和解析。对于计算机来说,所有的词仍然只是字符串,计算机并不知道其语义,但知道某些字符串与另外一些字符串有绑定(S卩结构)关系,由此可以根据这些绑定关系做简单的推理。而对于内容的理解工作,仍然是由使用计算机的人完成的。4)试图用知识结构重新构造互联网,S卩语义互联网,主要采用W3C的互联网本体语言(Ontology of Web Language,简称0WL)建立语义网络。如果所有人都按CWL创建互联网,互联网本身就成为一个计算机可以在一定程度上“理解”的知识结构。软件工程师们将为计算机设计一系列推理规则和引擎,在OWL语义网络上让计算机自己“理解”互联网信息内容,并做出正确的判断和操作。OffL的构思代表了未来的发展方向。这是人类对赋予计算机互联网知识结构,并为创造一个计算机能够读“懂”互联网信息内容的非常重要的尝试。但是,如果采用传统的编程方法来实现这一设想,即构建完整的OffL知识结构;进而建立完善的推理规则;然后,在此推理规则基础上构造一个强大的推理引擎,让计算机按照软件工程师预先构造的所有中间状态去做出推理过程中的每一步判断,从而读“懂”互联网信息内容。首先,这需要极高的智慧和技术技巧,再聪明的工程师也无法想象整个互联网知识的复杂性;所以,让所有的普通网站建设者按此方式构造OffL语义互联网几乎不可能;即便个别网站工程师可以做到, 也很难达到大规模应用的水平,更谈不上催生一个产业。其次,目前互联网上的数据已经巨大到无法估量,想将其转换成OffL形式,这无疑是基本上不可能完成的任务。因此,OffL走向实用的关键不是将整个互联网都变成OffL语言描述的互联网,而是对现有互联网以HTML 文本或XML文本为主的海量信息进行OWL分析、提取和转换。
技术实现思路
本专利技术提供了一种解决上述问题的方案,提供一种实用性强的基于OWL的互联网语言本体学习系统。本专利技术采用如下的设计思路让计算机在一定程度上读得“懂”互联网信息内容 第一,与OWL设计理念相同的是二者都将给计算机一个以OWL为基础的知识结构,但是,本专利技术并不打算用OffL构造整个互联网,而是从普通互联网文本中提取OffL信息,即 将文本中隐含的本体信息转译为OWL形式。计算机利用自身基于OWL的知识结构与互联网 OffL隐含的本体信息进行比较和推理,从而实现读“懂”互联网的目的。第二,与传统编程方法不同的是,本专利技术并不打算一次性地给计算机输入知识结构、推理规则和推理引擎,而是采用机器学习的方式,包括与工程师反复互动,逐步自我完善,由简入繁,达到大规模应用的水平。第三,基于OffL的互联网语言学习系统不仅可以通过学习维护、更新、完善计算机的互联网本体知识模型,而且可以维护、更新、完善使用这个OffL互联网本体知识库的推理规则和推理引擎,以便灵活地运用于各类互联网智能化应用中。基于以上思路,本专利技术提供一种基于OWL的互联网语言本体学习系统,其特征在于其包括网页采集子系统,负责采集互联网网页并将其转换成格式文本; OffL本体转换子系统,负责对所述互联网网页进行OWL本体转换,建立OWL本体实例; OffL推理引擎子系统,负责创建并维护OWL推理引擎,并根据所述OWL推理引擎对所述 OffL本体实例进行推理,建立所述互联网网页对应的OWL知识描述;原始文档管理子系统,负责保存和维护所述网页采集子系统采集的所述互联网网页。优选的,所述网页采集子系统包括网页采集模块和文本预处理模块,所述网页采集模块采集所述互联网网页中的格式文本信息,所述文本预处理模块对所述格式文本信息中的数据进行提取正文、分词、排歧、去重处理和语法标注处理。其中,分词就是将中文句子中的词与词之间插入空格,向英文那样把词与词分开;排岐就是一句话或一个词可能有一个以上的意思,叫“歧义”,消除这种歧义叫“排岐”;去重即从不同的网站可能采集来相同的文章,把它们识别出来,只保留一份;语法注释就是在分词的基础上把每一个词的词性和语法属性标注的词上。优选的,所述网页采集模块采集所述互联网网页中的HTML格式或XML格式的格式文本信息。优选的,所述OWL本体转换子系统包括OWL转换模块、OWL转换规则库、OWL转换规则维护模块以及OWL本体实例库;其中,OffL转换规则维护模块通过人机交互来创建和维护 OffL转换规则;创建好的OWL转换规则存入OWL转换规则库;OWL转换模块根据OWL转换规则库中的OWL转换规则对所述格式文本进行OWL本体转换得到建立OWL本体实例,并将该 OffL本体实例存入OWL本体实例库。优选的,其还包括OWL建模子系统,所述OWL建模子系统包括OWL建模模块和OWL 模型库;所述OWL建模模块通过人机交互创建和维护各种领域的OffL本体模型,并将创建好的OWL本体模型存入OWL模型库。优选的,所述OWL转换模块首先在所述OWL模型库检索与所述互联网网页所处领域相近的OWL本体模型,然后根据所述OWL本体模型对所述格式文本进行OWL本体转换得到建立OWL本体实例。优选的,所述OWL推理引擎子系统包括OWL推理引擎模块、OffL推理引擎维护模块、 OffL推理引擎库、OffL推理规则维护模块和OWL推理规则库;所述OWL推理引擎维护模块通过人机交互创建和维护OffL推理引擎,其创建好的OffL推理引擎存入OffL推理引擎库;所述 OffL推理规则维护模块通过人机交互创建和维护OffL推理规则,其创建好的OffL推理规则存入OWL推理规则库;所述OWL推理引擎模块调用所述OWL推理引擎库中的所述OWL推理引擎,并根据所述OWL推理规则库中的OWL推理规则对所述OWL本体实例进行推理,按照推理命题获得所述互联网网页对应的OWL知识描述。优选的,所述原始文档管理子系统包括原始文档管理模块和原始文档库;所述原始文档管理模块将所述互联网网页存入原始文档库,并建立所述互联网网页与所述OWL知识描述之间的索引。本专利技术的基于OffL的互联网语言本体学习系统并不将整个互联网都变成OffL语言本文档来自技高网
...

【技术保护点】
1.基于OWL的互联网语言本体学习系统,其特征在于:其包括:网页采集子系统,负责采集互联网网页并将其转换成格式文本;OWL本体转换子系统,负责对所述格式文本进行OWL本体转换,建立OWL本体实例;OWL推理引擎子系统,负责创建并维护OWL推理引擎,并根据所述OWL推理引擎对所述OWL本体实例进行推理,建立所述互联网网页对应的OWL知识描述;原始文档管理子系统,负责保存和维护所述网页采集子系统采集的所述互联网网页。

【技术特征摘要】

【专利技术属性】
技术研发人员:王楠
申请(专利权)人:王楠
类型:发明
国别省市:84

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1