网络信息语义结构识别方法和装置制造方法及图纸

技术编号：4212205 阅读：262 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种网络信息语义结构识别方法和装置，所述语义结构包括多个语义相关的网络页面信息内容的语义注解、被注解的信息的属性、语义注解之间的关系。通过定义样本页面的所述语义结构，在系统内部存储成语义结构树；生成语义树识别指令和语义树合法性识别指令；经验证后将语义结构描述文件和语义树识别指令文件和语义树合法性识别文件存储到外存储器。本发明专利技术定义和识别出的网络页面信息的语义结构可以被信息提取、全文搜索和语义搜索、商业情报挖掘、信息聚合、网络知识库等系统使用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机科学
语义网络分支，具体涉及一种网络信息语义结构识别方法，适用于网络信息提取、全文搜索和语义搜索、商业情报挖掘、信息聚合、网络知识库建立等应用领域。
技术介绍
随着Internet和Web的长足发展，网络上的信息呈爆炸式增长，人们除了从传统媒介上获取知识和信息以外，越来越习惯于在网络上寻求帮助，全文搜索技术实现了人们检索网络信息的愿望，只要输入几个关键字，就可以迅速地获得含有这几个关键字的信息。然而，即使有了搜索工具，人们还是感受到自己慢慢地在网络信息海洋中迷失了方向，找到自己关心的信息和知识变得越来越困难，因为遭受越来越多的不相干的噪音信息所干扰，这些信息包含査找的关键字，但是内容是不相干的。人们希望出现一种智能工具，根据用户的意愿帮助人们摈除噪音，筛选出真正需要的信息来。自计算机专利技术以来，社会生产力大大提高，它将人类从单调的繁杂的程式化的劳动中解放出来，使人们专注于创造性的活动，网络信息搜索也是由计算机承担的，因此，人们自然而然的想到改进计算机算法，使其变成人们的智能信息助理。人工智能的研究有着悠久的历史，...

【技术保护点】
一种网络信息语义结构的识别方法，所述语义结构包括网络页面信息内容的多个语义相关的语义注解、被注解的信息的属性、语义注解之间的关系，其特征在于，所述方法包括以下步骤：　（１）定义样本页面的所述语义结构，在系统内部存储成语义结构树；　　（２）生成语义树识别指令和语义树合法性识别指令；　（３）验证语义树识别指令和语义树合法性识别指令的有效性　（４）将语义结构描述文件和语义树识别指令文件和语义树合法性识别文件存储到外存储器。

【技术特征摘要】

【专利技术属性】
技术研发人员：华天清，齐勇挺，
申请(专利权)人：华天清，
类型：发明
国别省市：94[中国|深圳]

全部详细技术资料下载我是这个专利的主人