基于语义扩展的WEB页面归类方法和系统技术方案

技术编号:9143313 阅读:170 留言:1更新日期:2013-09-12 04:51
本发明专利技术提供一种基于语义扩展的WEB页面归类方法,包括:提取WEB页面的关键词;将WEB页面的关键词进行语义扩展,得到关键词组合;根据WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;将关键词组合与所述相似类别树中每个节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词组合存储在权重最高的节点中,更新所述相似类别树。对应地本发明专利技术还提供一种基于语义扩展的WEB页面归类系统。本发明专利技术能有效提高WEB页面信息归类的正确率和灵活性。

【技术实现步骤摘要】
基于语义扩展的WEB页面归类方法和系统
本专利技术涉及WEB页面数据处理技术,特别是涉及一种基于语义扩展的WEB页面归类方法,以及一种基于语义扩展的WEB页面归类系统。
技术介绍
随着互联网的普及和信息技术的发展,越来越希望通过互联网来对信息进行挖掘利用,但目前对于数据的归类多是基于关键字的对比,方法比较简单,在WEB信息自动归类或查找的过程中基于关键字匹配的方案不能很好的满足要求,在精确度和应用的灵活性方面效果较差。
技术实现思路
基于此,本专利技术提供一种基于语义扩展的WEB页面归类方法和系统,能有效提高WEB页面信息归类的正确率和灵活性。一种基于语义扩展的WEB页面归类方法,包括如下步骤:提取WEB页面的关键词;将所述WEB页面的关键词进行语义扩展,得到关键词组合;根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词组合存储在权重最高的所述节点中,更新所述相似类别树。一种基于语义扩展的WEB页面归类系统,包括:提取模块,用于提取WEB页面的关键词;扩展模块,用于将所述WEB页面的关键词进行语义扩展,得到关键词组合;确定模块,用于根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;匹配模块,用于将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;归类模块,用于将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词组合存储在权重最高的所述节点中,更新所述相似类别树。上述基于语义扩展的WEB页面归类方法和系统,首先提取WEB页面的关键词,根据关键词进行语义扩展,得到了该页面的语义扩展集合,即所述的关键词组合;将WEB页面的关键词与语义词库的类别树进行比较,从而确定相似类别树,根据关键词组合确定权重最高的节点并存储,得到更新后的相似类别树,采用语义信息,对抽取的数据进行归类分析,实现了基于语义的数据归类,实现了WEB页面数据的高效归类,数据处理更加准确可靠。附图说明图1为本专利技术基于语义扩展的WEB页面归类方法在一实施例中的流程示意图。图2为图1中关键词组合和相似类别树的示意图。图3为本专利技术基于语义扩展的WEB页面归类系统在一实施例中的结构示意图。具体实施方式下面结合实施例及附图对本专利技术作进一步详细说明,但本专利技术的实施方式不限于此。如图1所示,是本专利技术一种基于语义扩展的WEB页面归类方法在一较佳实施例中的流程示意图,包括如下步骤:S11、提取WEB页面的关键词;S12、将所述WEB页面的关键词进行语义扩展,得到关键词组合;在本实施例中,首先提取WEB页面的关键词,根据关键词进行语义扩展,得到了该页面的语义扩展集合,即所述的关键词组合;S13、根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;语义词库能帮助机器理解用户的检索意图,为用户提供更精确、更相关的知识和信息;其中的类别树是一种分层的语法结构,其中用词和词的组合定义的概念彼此之间存在着语义关系;语义词库可根据现有领域知识建立;语义词库中包含了各个类别树,每个类别树侧重于一个较小的主题,对应于一个较小的领域应用;如“电力新技术”下包含了多个节点,比如节点“智能电网”,预设权重为5;节点“调度自动化”,预设权重为4;在所述WEB页面提取到关键词后,可根据预设的语义词库确定对应的类别树。S14、将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;S15、将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词存储在权重最高的所述节点中,更新所述相似类别树;WEB页面对应有关键词组合,在确定对应的类别树后,将WEB页面对应的关键词组合与相似类别树下的每个节点中一匹配,若WEB页面对应的关键词组合与某个节点中包含的多个关键词中,有相同的关键词,则将相同的关键词对应地预设权重进行相加,最后判断该相似类别树下那个节点的权重最高,将所述WEB页面归类在权重最高的所述节点下,同时将关键词存储到权重最高的节点中;如图2所示,图2a为关键词组合TreeA的示意图,图2b为相似类别树TreeB;其中,ClassA1下有语义扩展词k1,k2,k3,k4。权值分别为2,5,3,1。ClassA2下有语义扩展词k1,k4。ClassB1下有语义扩展词k1。.ClassB2下有语义扩展词K2,k4。则:Sum(A1,B2)我们通过以下方式计算:其中相同关键词为{k1,k2,k3,k4}∩{K2,k4}={K2,k4};则Sum(ClassA1,ClassB2)=k2+k4=5+1=6,权重6即为类别ClassA1与ClassB2的相似度。最后将所述WEB页面归类在权重最高的所述节点下,同时将关键词组合存储到相似类别树TreeB下权重最高的节点。在本实施例中,首先提取WEB页面的关键词,根据关键词进行语义扩展,得到了该页面的语义扩展集合,即所述的关键词组合;将WEB页面的关键词与语义词库的类别树进行比较,从而确定相似类别树,根据关键词组合确定权重最高的节点并存储,得到更新后的相似类别树,采用语义信息,对抽取的数据进行归类分析,实现了基于语义的数据归类,实现了WEB页面数据的高效归类,数据处理更加准确可靠。在一较佳实施例中,所述提取WEB页面的关键词的步骤为:读取所述WEB页面的源代码,从每个标题控制符中提取关键词,获得WEB页面的关键词;在本实施例中需去掉web页面中与需要信息无关的其他内容,提取对分类和过滤有用的信息;可通过读取WEB页面的源代码,在页面中控制符主要包括标题,即网页源代码中用TITLE标记的文字,可提取为关键词。在一较佳实施例中,还包括步骤:接收输入的查询关键字;通过语义计算查询与所述查询关键字语义相似的类别树;根据所述相似的类别树中各个节点包含的关键词进行检索;在本实施例中,基于语义检索网页,根据更新后的类别树,其节点中包含了更加准确和全面的关键词,根据各个节点包含的关键词进行检索,信息提供更加准确可靠。在一较佳实施例中,所述语义扩展包括同义词扩展、特征扩展或关键词合成扩展;对关键词进行语义扩展,从而增强了信息归类的可靠性和灵活性。本专利技术还提供一种基于语义扩展的WEB页面归类系统,包括:提取模块31,用于提取WEB页面的关键词;扩展模块32,用于将所述WEB页面的关键词进行语义扩展,得到关键词组合;在本实施例中,首先提取WEB页面的关键词,根据关键词进行语义扩展,得到了该页面的语义扩展集合,即所述的关键词组合;确定模块33,用于根据所述WEB页面的关键词,从本文档来自技高网...
基于语义扩展的WEB页面归类方法和系统

【技术保护点】
一种基于语义扩展的WEB页面归类方法,其特征在于,包括如下步骤:提取WEB页面的关键词;将所述WEB页面的关键词进行语义扩展,得到关键词组合;根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词组合存储在权重最高的所述节点中,更新所述相似类别树。

【技术特征摘要】
1.一种基于语义扩展的WEB页面归类方法,其特征在于,包括如下步骤:提取WEB页面的关键词;将所述WEB页面的关键词进行语义扩展,得到关键词组合;其中,所述语义扩展包括同义词扩展、特征扩展或关键词合成扩展;根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词组合存储在权重最高的所述节点中,更新所述相似类别树;所述提取WEB页面的关键词的步骤为:读取所述WEB页面的源代码,从每个标题控制符中提取关键词,获得所述WEB页面的关键词。2.根据权利要求1所述的基于语义扩展的WEB页面归类方法,其特征在于,还包括步骤:接收输入的查询关键字;通过语义计算查询与所述查询关键字语义相似的类别树;根据所述相似的类别树中各个节点包含的关键词进行检索。3.一种基于语义扩展的WEB页面归类系...

【专利技术属性】
技术研发人员:徐立新颜小林李军
申请(专利权)人:广东电网公司电力科学研究院
类型:发明
国别省市:

网友询问留言 已有1条评论
  • 来自[美国加利福尼亚州圣克拉拉县山景市谷歌公司] 2015年01月05日 06:56
    第一届绝对Superstar参赛者何维健推出首张个人专辑发行第一天专辑就被抢购一空参加绝对Superstar荣夺季军何维健在和唱片公司签下合约后就开始服兵役苦等了三年才有机会发行个人专辑何维健坦诚过程很难受歌手何维健说很痛苦真的很痛苦之前没有那么活跃就不知道什么时候录歌拍什么的在什么都不知道的情况下就开始乱乱想东西
    0
1