用于基于语义的自动挖掘的系统技术方案

技术编号:7318642 阅读:148 留言:0更新日期:2012-05-04 10:43
本发明专利技术一般涉及用于基于语义的自动挖掘的系统,以允许为扩充语义产品而进行的Web挖掘能在用户交互最少的情况下进行。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般涉及用于基于语义的自动挖掘的系统,该系统允许用于扩充语义产品数据的网络挖掘(web mining)在用户交互最少的情况下进行。
技术介绍
今天,万维网(WWW)继续以惊人的速度在通信容量以及Web站点规模和复杂性这两个方面增长。诸如Web站点设计、Web服务器设计以及通过Web站点简单的导航这样的任务的复杂性,也随着其增长而增大。由Tim-Berners-Lee引入的万维网上信息资源的巨大爆炸性增长,需要采用自动化的工具来搜索、提取、过滤以及评估需要的信息和资源。因此,将Web转化为用于电子商务和研究的主要工具,导致创建服务器侧和客户侧智能系统, 这些系统可以在互联网特别是Web站点挖掘知识。Web挖掘是应用数据挖掘技术从Web上发现模式。它允许从产品或者与万维网有关的活动中提取感兴趣的和可能有用的模式和暗含的信息。Web挖掘类别其中之一是Wfeb内容挖掘。Web内容挖掘是从Web上的文本、图像、音频或视频数据发现有用信息的过程,并且它包括Web文档的文本挖掘和建立在概念索引或基于代理的技术的基础上的资源发现。它是从文档内容或者它们的描述中提取知识的过程。现在存在两组Web内容挖掘战略,即直接挖掘文档内容和改善其他工具诸如搜索引擎的内容搜索。Web内容挖掘是一种超越关键词提取的自动化过程。目前,万维网主要建立在以超文本标记语言(HTML)写成的文档的基础上,HTML是一种标记协议,用于将散布多媒体对象诸如图像和交互表单的文本主体进行编码。人类能利用Web完成某些任务,诸如以另一种语言寻找英语单词,搜索某本书的题目,或者搜索最新版的书等等。但是,计算机作为机器,需要用户介入或指导,以完成要求的任务,因为网页设计地是用来由人类阅读而非由机器阅读。由于文本文档的内容并不存在机器可读的语义,所以一些方案已经建议通过机器能利用的表达式重构文档内容。利用文档中的已知结构的常规方案是利用包装 (wrapper)将文档映射成某些数据模型。因为不可能让机器仅凭字母关系等级解释代码,所以需要专门构建的语义Web编码系统。语义Web(万维网扩展,其中定义了信息的语义以及Web上的服务,使得Web能理解并满足人们的需要,并让机器使用Web内容)是能被计算力理解的信息视觉,所以他们能执行搜索、获取、共享并组合Web上的信息方面的更为复杂和繁杂的工作。语义Web涉及以专门为数据设计的语言进行发布资源描述框架(RDF)、网页本体语言(OWL)和可扩展标记语言(XML)。HTML描述文档和它们之间的链接。相反,RDF、OffL和XML可以描述任何事物诸如人、会议和飞机零件。这些技术组合在一起,以便提供补充或代替Web文档内容的描述。因此,内容可以表述为存储在Web读写数据库中的描述性数据或者表述为文档中的标记(特别是,在散布有XML的可扩展HTML (XHTML)中,或者更常见的是在纯XML中,布局或者渲染提示单独存储)。机器可读的描述允许内容管理器为内容增加含义,即描述知识本身的结构而非文本,采用类似人类推导逻辑和干涉的过程,由此获取更有意义的结果并有助于利用计算机实现自动化的信息收集和研究。例如,文本分析技术现在可以通过使用其他词语例如比喻来规避,或者使用图像代替词语。但是,现有的Web挖掘系统存在的缺陷在于,在挖掘产品时仍然涉及较高程度的用户交互。朝着自动化的方向减少用户交互的重要性至关重要,因为它加速了从Web发现和提取信息。而且由于语义Web的主干是本体论(现在经常是手工的),如果用户交互没有保持在最少的程度,则广泛应用语义Web技术将会延迟或受阻。因此,如果通过一种允许基于自动语义的产品数据Web挖掘的系统来缓解上述缺点,将极其具有优势,基于语义的产品数据自动Web挖掘能定义本体和/或他们的概念的实例,并且可以在用户交互最少的情况下实施。
技术实现思路
因此,本专利技术的主要目的是提供一种允许为扩充语义产品数据进行Web挖掘的系统,所述Web挖掘能在最少地涉及用户交互的情况下进行。本专利技术的另一个目的是提供一种允许为扩充语义产品数据进行Web挖掘的系统, 以允许仅通过插入选定的关键词而从Web中发现和提取有用信息。本专利技术的另一个目的是提供一种允许为扩充语义产品数据而进行Web挖掘的系统,以允许迅捷快速地从Web发现并提取有用信息。本专利技术进一步的目的是提供一种允许为扩充语义产品数据进行Web挖掘的系统, 以允许系统地并有目的地从网页发现和提取有用信息。本专利技术进一步的目的是提供一种允许为扩充语义产品数据进行Web挖掘的系统, 以改善Web挖掘结果。在理解本专利技术的以下详细描述或者将本专利技术用于实践之后,本专利技术的其他和进一步的目的将显现出来。根据本专利技术的优选方法,提供了一种语义Web挖掘方法,包括步骤将至少一个关键词插入Web页面;向挖掘代理发送所述关键词;收集从互联网挖掘的数据;存储数据用于以后的知识获取;其特征在于,所述向挖掘代理发送关键词跟随在筛选关键词之后;所述存储数据跟随在确定所收集的数据的mime (多目的互联网邮件扩展)类型以及此后让所确定的数据类型接受相关语义处理应用程序和验证程序之后。在本专利技术的另一个方面,提供了一种语义Web挖掘方法,包括步骤 将至少一个关键词插入Web页面;向挖掘代理发送所述关键词;从互联网收集挖掘到的数据;存储数据用于以后的知识获取;其特征在于,所述存储数据跟随在确定所收集的数据的mime (多目的互联网邮件扩展)以及此后确定了类型的数据接受相关语义处理应用程序和验证程序之后。附图说明在结合附图研究具体实施方式之后,本专利技术的其他方面以及它们的优势将体现出来,在附图中图1是用于基于语义的自动Web挖掘系统的简化流程图;图2是用于基于语义的自动Web挖掘的系统的详细流程图;图3示出了用于本专利技术的Web挖掘代理的架构。具体实施例方式在以下详细描述中,论述众多具体细节以便彻底理解本专利技术。但是,本领域技术人员应该理解,在不具备这些具体细节的情况下,本专利技术也可以实施,在其他实例中,熟知的方法、过程和/或部件没有详细描述,以便不会混淆本专利技术。参照附图,从仅作为示例给出的本专利技术的实施方式的描述中,可以更为清楚地理解本专利技术,这些附图并不是依据比例绘制。参照附图,在所有示出的图形中,同样的附图标记指示类似的部件,图1示出了用于基于语义的自动Web挖掘的系统的简化流程图,而图2示出了用于基于语义的自动Web 挖掘的系统的详细流程图。如图1所示,简化的架构示出了 5个步骤,即由第一方块2指示的关键词插入步骤;由第二方块4指示的Web挖掘步骤;由第三方块6指示的数据处理步骤;由第四方块8指示的语义数据验证步骤;和由第五方块10指示的数据存储步骤。首先, 在关键词插入步骤2中,至少选定的与待发现信息相关的关键词由用户插入到网页中。然后,关键词被发送到Web挖掘代理,该代理用于在Web挖掘步骤4中从互联网诸如谷歌、雅虎、MSN、^u Tube等抓取与插入的关键词或多个关键词具有相关性的全部数据。然后,收集起来的数据在数据处理步骤6中利用语义服务加工成语义数据,以便将单纯的互联网数据转化成机器可读数据。然后在语义数据验证步骤8中,由用户验证经过处理的数据,用于存储在知识库存储器中,优选知识库RDF或三元存本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:佩鲁马尔·AL·纳根丹洲元凯悦林·阿姆鲁迪恩·阿姆鲁
申请(专利权)人:马来西亚微电子系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术