一种以XML为基础的Web数据挖掘系统技术方案

技术编号:14762954 阅读:99 留言:0更新日期:2017-03-03 16:54
本发明专利技术公开了一种以XML为基础的Web数据挖掘系统,该系统包括用户界面模块、预处理模块、数据挖掘模块、结果评估模块;本发明专利技术有效解决了面向Web的数据挖掘难题,XML使来源不同的结构化数据进行了有效结合,为多样化难兼容数据库的搜索带来了可能,有效解决了Web数据挖掘技术性难题。此外,XML强大的扩展性与灵活性,允许XML对各种应用软件数据进行合理描述,便于对所搜集到的Web数据记录进行描述,因而为软件开发人员、Web终端及站点使用人员提供了有利的条件。

【技术实现步骤摘要】

本专利技术涉及计算机
,特别是涉及一种以XML为基础的Web数据挖掘系统
技术介绍
随着Internet的广泛应用,Web数据挖掘技术成为相关领域的研究热点之一,但Web数据控制的复杂性限制了该技术的发展。XML的应用为解决Web数据挖掘技术难题带来了契机。本文针对Web数据挖掘的特点,分析了XML在Web数据挖掘技术中的应用优势,并就以XML为基础的Web数据挖掘技术系统框架进行了分析。对于传统数据挖掘而言,其对象多为数据仓库中较为规则化的数据,对此类数据已经有些力不从心。W3C所开发的XML属于半结构化数据模型,具有树形结构、自描述等多种特点,可以使源于不同结构的数据有效结合起来,不仅兼容了传统Web应用,还实现了Web信息的交换与共享,因而为Web数据挖掘技术带来了极佳的中间载体,有效解决了Web数据挖掘的难点。
技术实现思路
本专利技术的目的是提供一种以XML为基础的Web数据挖掘系统。本专利技术的目的可以通过以下技术方案实现:一种以XML为基础的Web数据挖掘系统,包括用户界面模块、预处理模块、数据挖掘模块、结果评估模块;所述的户界面模块为用户与系统之间的交互提供了接口,用户可先对挖掘参数进行设置,在提交挖掘请求,并根据结果进行评估;所述的预处理模块负责对网页数据构建半结构化模型,并将其特征元数据进行抽取,利用结构化形式予以保存,构建以Web为基础的多层数据库,体现文档集合的特点;所述的数据挖掘模块包括挖掘器单元和方法驱动单元;所述的挖掘器单元负责以相关要求为依据,对挖掘方法进行选择,以更好地执行数据挖掘任务;所述的方法驱动单元利用所挖掘的信息,对Web页面内容进行修订,改进服务设计等,为用户提供个性化的界面和服务;所述的结果评估模块负责对结果进行评价,并为用户推荐其可能感兴趣的网页。本专利技术的有益效果:本专利技术所提供的一种以XML为基础的Web数据挖掘系统,具有以下优点:(1)利用Tidy工具有效将非XML代码的文档转变为了XML文档;(2)构建了用户兴趣模型,有效描述了用户所需信息,可以为不同用户提供个性化的服务信息及检索内容,满足了各类用户群体的不同需求;(3)用户可自行设置挖掘参数,对挖掘结果进行评估,有效提高了用户同系统之间的交互性,使系统方便地完成数据挖掘任务。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1是本专利技术的系统结构示意图。具体实施方式本专利技术的核心是提供一种以XML为基础的Web数据挖掘系统。为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术提供了一种以XML为基础的Web数据挖掘系统,包括用户界面模块M110、预处理模块M120、数据挖掘模块M130、结果评估模块M140。所述的户界面模块M110为用户与系统之间的交互提供了接口,用户可先对挖掘参数进行设置,在提交挖掘请求,并根据结果进行评估。所述的预处理模块M120负责对网页数据构建半结构化模型,并将其特征元数据进行抽取,利用结构化形式予以保存,构建以Web为基础的多层数据库,体现文档集合的特点;其中,日志预处理器模块负责对日志数据进行过滤、转换等,将其转变成易于处理的结构,形成数据库,便于用户对数据进行全面分析;数据转换与抽取模块负责利用XML对Web文档进行处理,构建半结构化模型,对元数据进行抽取和存储,将非XML代码的网页利用TIDY软件转变成XML格式,以便挖掘;用户兴趣建模模块为用户提供了个性化的服务检索及数据过滤系统,会对用户兴趣进行跟踪,为各用户构建相应的个性化描述文件,储存用户兴趣;特征向量生成器模块负责结合网页特点抽取特征,确保文档特征向量同用户兴趣模型向量保持一致。所述的数据挖掘模块M130包括挖掘器和方法驱动模块,前者属于数据挖掘驱动引擎,由于各种挖掘算法适用于不同情况,因此,挖掘器负责以相关要求为依据,对挖掘方法进行选择,以更好地执行数据挖掘任务。后者利用所挖掘的信息,对Web页面内容进行修订,改进服务设计等,为用户提供个性化的界面和服务。所述的结果评估模块M140负责对结果进行评价,并为用户推荐其可能感兴趣的网页。本专利技术所提供的一种以XML为基础的Web数据挖掘系统,具有以下优点:(1)利用Tidy工具有效将非XML代码的文档转变为了XML文档;(2)构建了用户兴趣模型,有效描述了用户所需信息,可以为不同用户提供个性化的服务信息及检索内容,满足了各类用户群体的不同需求;(3)用户可自行设置挖掘参数,对挖掘结果进行评估,有效提高了用户同系统之间的交互性,使系统方便地完成数据挖掘任务。为了描述的方便,描述以上装置时以功能分为各种单元、模块分别描述。当然,在实施本申请时可以把各单元、模块的功能在同一个或多个软件和/或硬件中实现。通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。以上所描述的装置实施方式仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本专利技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述本文档来自技高网
...
一种以XML为基础的Web数据挖掘系统

【技术保护点】
一种以XML为基础的Web数据挖掘系统,其特征在于,包括用户界面模块、预处理模块、数据挖掘模块、结果评估模块;所述的户界面模块为用户与系统之间的交互提供了接口,用户可先对挖掘参数进行设置,在提交挖掘请求,并根据结果进行评估;所述的预处理模块负责对网页数据构建半结构化模型,并将其特征元数据进行抽取,利用结构化形式予以保存,构建以Web为基础的多层数据库,体现文档集合的特点;所述的数据挖掘模块包括挖掘器单元和方法驱动单元;所述的挖掘器单元负责以相关要求为依据,对挖掘方法进行选择,以更好地执行数据挖掘任务;所述的方法驱动单元利用所挖掘的信息,对Web页面内容进行修订,改进服务设计等,为用户提供个性化的界面和服务;所述的结果评估模块负责对结果进行评价,并为用户推荐其可能感兴趣的网页。

【技术特征摘要】
1.一种以XML为基础的Web数据挖掘系统,其特征在于,包括用户界面模块、预处理模块、数据挖掘模块、结果评估模块;所述的户界面模块为用户与系统之间的交互提供了接口,用户可先对挖掘参数进行设置,在提交挖掘请求,并根据结果进行评估;所述的预处理模块负责对网页数据构建半结构化模型,并将其特征元数据进行抽取,利用结构化形式予以保存,构建以Web为基础...

【专利技术属性】
技术研发人员:曹卫星
申请(专利权)人:合肥红珊瑚软件服务有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1