【技术实现步骤摘要】
基于语义扩展的WEB页面归类方法和系统
本专利技术涉及WEB页面数据处理技术,特别是涉及一种基于语义扩展的WEB页面归类方法,以及一种基于语义扩展的WEB页面归类系统。
技术介绍
随着互联网的普及和信息技术的发展,越来越希望通过互联网来对信息进行挖掘利用,但目前对于数据的归类多是基于关键字的对比,方法比较简单,在WEB信息自动归类或查找的过程中基于关键字匹配的方案不能很好的满足要求,在精确度和应用的灵活性方面效果较差。
技术实现思路
基于此,本专利技术提供一种基于语义扩展的WEB页面归类方法和系统,能有效提高WEB页面信息归类的正确率和灵活性。一种基于语义扩展的WEB页面归类方法,包括如下步骤:提取WEB页面的关键词;将所述WEB页面的关键词进行语义扩展,得到关键词组合;根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加; ...
【技术保护点】
一种基于语义扩展的WEB页面归类方法,其特征在于,包括如下步骤:提取WEB页面的关键词;将所述WEB页面的关键词进行语义扩展,得到关键词组合;根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词组合存储在权重最高的所述节点中,更新所述相似类别树。
【技术特征摘要】
1.一种基于语义扩展的WEB页面归类方法,其特征在于,包括如下步骤:提取WEB页面的关键词;将所述WEB页面的关键词进行语义扩展,得到关键词组合;其中,所述语义扩展包括同义词扩展、特征扩展或关键词合成扩展;根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词组合存储在权重最高的所述节点中,更新所述相似类别树;所述提取WEB页面的关键词的步骤为:读取所述WEB页面的源代码,从每个标题控制符中提取关键词,获得所述WEB页面的关键词。2.根据权利要求1所述的基于语义扩展的WEB页面归类方法,其特征在于,还包括步骤:接收输入的查询关键字;通过语义计算查询与所述查询关键字语义相似的类别树;根据所述相似的类别树中各个节点包含的关键词进行检索。3.一种基于语义扩展的WEB页面归类系...
【专利技术属性】
技术研发人员:徐立新,颜小林,李军,
申请(专利权)人:广东电网公司电力科学研究院,
类型:发明
国别省市: