一种基于商品数据的物联网设备能力本体自构建方法技术

技术编号:20389925 阅读:16 留言:0更新日期:2019-02-20 02:52
本发明专利技术属于物联网技术领域,具体为一种基于商品数据的物联网设备能力本体自构建方法,其中构建方法包括:通过网络爬虫抓取网页数据;基于网页结构特征抽取能力描述信息;对所述能力描述信息进行分词和词性标注;根据词性标注采用支持向量机算法抽取命名实体;计算命名实体中的能力术语间的关系;构建能力本体。本发明专利技术的优点在于:针对物联网中的商品信息,从而使得构建出的能力本体结构简洁、自身的规范性更好,更加适合于实际应用;在支持向量机SVM的基础上,分别通过知网义原和聚类分析的方法,建立了能力概念间的层次关系以及其所对应能力间的相似关系;采用了中文词法分析工具包使得整个能力本体的建立流程为中文更加便于操作。

【技术实现步骤摘要】
一种基于商品数据的物联网设备能力本体自构建方法
本专利技术属于物联网
,具体为一种基于商品数据的物联网设备能力本体自构建方法。
技术介绍
近年来随着物联网技术的飞速发展,物联网设备的种类越来越丰富,感知和控制能力从广度和深度都达到了一个新的层次,为物联网的智能化提供了条件,同时也提出了挑战。从信息化和智能化角度看,物联网存在的问题主要表现在以下三个方面:一是大量异构信息的存在,阻碍了物联网设备的互联互通和数据的共享。长期以来,各国对物联网的理解不一致,语言不一致,在研究过程中对事物的标识方式也不能统一;各个行业对设备的描述方式不同,对同类型数据的表示方式不统一。二是数据和信息无法被物联网中的使用主体(计算机、智能设备等)理解,数据的自动处理程度受限。早在2003年,VaganTerziyan就已经提出当前物联网中的用户已经不仅仅局限于人类,智能设备已经作为新的“用户”出现在物联网中,而数据和信息无法被智能设备理解,也就无法实现自动处理和设备间的协作。同样,由于计算机无法理解物联网中的数据,导致物联网管理平台和分析控制系统只能进行简单的数据处理,严重影响了数据的有效利用和处理速率。三是对物联网智能化的需求与期望日益提升,而以上两点成为了阻碍物联网实现更高智能的关键因素。实现物联网的智能化,不仅需要设备具备较强的信息处理能力,也要求设备能够正确的理解和使用信息。语义技术逐步运用于资源描述、物联网数据共享以及信息的整合过程中,从而形成机器能够理解的自描述数据。语义技术与物联网的结合形成了语义物联网,而语义物联网的基础是本体。本体是实现异构信息的规范化描述、语义标注、数据共享和知识表示的基础,也是进行知识推理、机器理解、语义搜索和服务组合等智能化操作的有效支撑。目前已有的物联网领域本体多从网络的组织架构、数据的流通和管理控制过程进行概念抽象,导致本体结构复杂、不易理解而且不适于在实际工程中应用。
技术实现思路
本专利技术的目的是通过以下技术方案实现的一种基于商品数据的物联网设备能力本体自构建方法,包括:通过网络爬虫抓取网页数据;基于网页结构特征抽取能力描述信息;对所述能力描述信息进行分词和词性标注;根据词性标注采用支持向量机算法抽取命名实体;计算命名实体中的能力术语间的关系;构建能力本体。进一步的,所述通过网络爬虫抓取网页数据,包括对冗余信息进行剔除,其中,冗余信息包括:图片以及链接。进一步的,所述基于网页结构特征抽取能力描述信息包括:根据对应的网页结构特征制定抽取规则;根据所述抽取规则在对应的网页中抽取能力描述信息并进行保存。更进一步的,所述抽取规则包括:指定能力描述字段在HTML文档中的位置;采用多级关键字检测方法快速定位能力描述字段中的能力描述信息。更进一步的,所述多级关键字检测方法包括:制定多级关键词;对所述能力描述字段进行第一关键词检测,当未检测到第一关键词时进行第二级关键词检测,依此类推,直到检测到关键词为止。进一步的,所述采用支持向量机算法抽取命名实体包括:通过特征定义函数对所述命名实体进行抽取;其中,所述特征定义函数为:Φ=f(g(t),d(w),p(ta),p(tb))其中,g(t)为相应词语的词性函数,t为词性,g为分段函数;d(w)为与关键字的字符距离函数,w是关键字集合;p(ta)是前向词词性的概率函数,ta是前向次词性;p(tb)是后向词词性的概率函数,tb是后向次词性。更进一步的,所述命名实体包括:能力概念和能力属性。更进一步的,所述的能力本体自构建方法还包括:训练能力概念模型和能力属性模型。进一步的,所述计算能力术语间的关系包括:采用基于义原的方法计算能力概念间的语义距离,从而建立能力概念间的层次关系;采用聚类算法对能力属性进行聚类分析,从而获得能力属性间的相似程度。根据上述任一项所述的能力本体自构建方法,所述构建能力本体包括:根据所述网页数据获得所述能力描述信息所对应物体的类型以及型号;将通过相同能力描述信息获得的能力概念、物体的类型以及型号进行综合,从而获得能力本体概念集合;根据所述物体的型号确定所述能力属性的属性值;将同一物体所对应的能力本体概念集合、能力属性及其属性值和能力术语间的关系进行综合,构建出能力本体。本专利技术的优点在于:本专利技术针对物联网中的商品信息,通过抽取商品信息中的能力概念和能力属性,并对其关系进行计算,从而使得构建出的能力本体结构简洁,能力本体自身的规范性更好,更加适合于实际应用;在支持向量机SVM的基础上,分别通过知网义原和聚类分析的方法,建立了能力概念间的层次关系以及其所对应能力间的相似关系,从而使得构建出的能力本体间的关系更加清晰;采用了中文词法分析工具包使得整个能力本体的建立流程为中文更加便于操作。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:附图1示出了本专利技术的能力本体自构建方法流程图。附图2示出了一种能力本体构建系统实施例的工作流程图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本文从物联网设备出发,提出了一种从商品数据的术语抽取并构建物联网设备能力本体的方法。因为能力是物联网设备的本质体现,设备所具有的能力决定了设备是什么和可以做什么,因此为物联网数据添加能力语义对于实现物联网设备的语义搜索、深度发现、能力集成和提高物联网智能具有重要意义。而目前无论是物联网领域还是通用领域都缺少对物体能力的规范化表述,本专利可在一定程度上填补物联网领域有关能力本体的空白。本专利提供一种从商品页面和商品文档自动抽取与物联网设备能力相关的术语(包括能力概念及能力属性)及能力关系的方法,即一种构建物联网能力本体的方法。根据本专利技术的实施方式,提出一种基于商品数据的物联网设备能力本体自构建方法。本专利技术针对目标为物联网中的商品信息,包括商品页面和商品文档;通过结合了爬虫系统,使得本专利技术可以做到数据自动采集,并对采集到的数据进行筛选、特征提取、词性标注和分词、命名实体抽取以及能力关系计算进而获得该商品的能力本体。下面将对本专利技术的具体过程进行说明:如图1所示,为本专利技术的能力本体自构建方法流程图。其中,能力本体的自构建方法包括:S1、通过网络爬虫抓取网页数据;S2、基于网页结构特征抽取能力描述信息;S3、对所述能力描述信息进行词性标注和分词;S4、根据词性标注采用支持向量机算法抽取命名实体;S5、计算命名实体中的能力术语间的关系;S6、构建能力本体。具体的,所述能力本体通过能力概念以及能力属性等能力术语进行描述,其中,所述能力概念为现实中对商品的具体抽象概念,包括:商品的类型和型号;所述能力属性为对该商品所具有的能力的抽象,其具体可以通过属性以及属性值进行描述;能力关系,其也是构建能力本体的意义所在,通过商品能力关系的建立,使得每个商品不再独立,根据该商品所具有的能本文档来自技高网
...

【技术保护点】
1.一种基于商品数据的物联网设备能力本体自构建方法,其特征在于,包括:通过网络爬虫抓取网页数据;基于网页结构特征抽取能力描述信息;对所述能力描述信息进行分词和词性标注;根据词性标注采用支持向量机算法抽取命名实体;计算命名实体中的能力术语间的关系;构建能力本体。

【技术特征摘要】
1.一种基于商品数据的物联网设备能力本体自构建方法,其特征在于,包括:通过网络爬虫抓取网页数据;基于网页结构特征抽取能力描述信息;对所述能力描述信息进行分词和词性标注;根据词性标注采用支持向量机算法抽取命名实体;计算命名实体中的能力术语间的关系;构建能力本体。2.根据权利要求1所述的能力本体自构建方法,其特征在于,所述通过网络爬虫抓取网页数据,包括对冗余信息进行剔除,其中,冗余信息包括:图片以及链接。3.根据权利要求1所述的能力本体自构建方法,其特征在于,所述基于网页结构特征抽取能力描述信息包括:根据对应的网页结构特征制定抽取规则;根据所述抽取规则在对应的网页中抽取能力描述信息并进行保存。4.根据权利要求3所述的能力本体自构建方法,其特征在于,所述抽取规则包括:指定能力描述字段在HTML文档中的位置;采用多级关键字检测方法快速定位能力描述字段中的能力描述信息。5.根据权利要求4所述的能力本体自构建方法,其特征在于,所述多级关键字检测方法包括:制定多级关键词;对所述能力描述字段进行第一关键词检测,当未检测到第一关键词时进行第二级关键词检测,依此类推,直到检测到关键词为止。6.根据权利要求1所述的能力本体自构建方法,其特征在于,所述采用支持向量机算法抽取命名实体包括:通过特征定义函数对所述命名实体进行抽取;其中...

【专利技术属性】
技术研发人员:马超刘弋峰谢海永潘博文李赟田承东
申请(专利权)人:中国电子科技集团公司信息科学研究院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1