一种面向物联网设备的自动语义标注方法技术

技术编号:15690990 阅读:227 留言:0更新日期:2017-06-24 03:50
本发明专利技术公开了一种面向物联网设备的自动语义标注方法。本发明专利技术采用物联网设备描述框架描述物联网中的设备,设备信息经筛选和过滤后被划分成设备功能信息和设备非功能信息,并采取不同的分类方法,再将两个组成部分的分类结果整合之后从设备本体中基于语义相似度筛选本体概念URI作为语义标签用于标注。考虑到方法的扩展性,提出设备本体扩展用于扩展设备本体,保证语义标签选择的准确性。本发明专利技术提出的面向物联网设备的自动语义标注方法,能够提高语义物联网中海量设备的自动语义标注效率,进一步提升服务发现系统的性能。

An automatic semantic annotation method for Internet of things equipment

The invention discloses an automatic semantic annotation method for an Internet of things device. The invention adopts the networking device description framework for describing networking equipment, equipment information through screening and filtering are divided into functional and non functional information of equipment equipment, and adopt different classification methods, and then after the two part of the classification results from the device ontology integration based on semantic similarity of ontology concepts as URI screening the semantic labels for labeling. Considering the scalability of the method, a device ontology extension is proposed to extend the device ontology to ensure the accuracy of semantic tag selection. The automatic semantic annotation method for the Internet of things device of the invention can improve the automatic semantic annotation efficiency of the mass equipment in the semantic Internet of things, and further improve the performance of the service discovery system.

【技术实现步骤摘要】
一种面向物联网设备的自动语义标注方法
本专利技术属于语义物联网中,自动语义标注领域,具体涉及物联网设备描述框架、自动语义标注和设备本体扩展方法。
技术介绍
语义技术是解决物联网中海量、异构、分布式实体间信息交互的关键技术,将实体和被感知、存储和处理的信息进行语义标注则是物联网语义化的基础。物联网领域的语义标注是通过对物联网实体和数据进行语义标注,使物联网实体能够利用统一的富含语义的形式进行描述,为服务层的语义服务发现提供支撑。目前关于语义标注的研究中,出现了一个语义标注平台,包括AeroDAML,SMT,MnM,Armadillo等;大部分研究集中在Web文档语义标注,基于模糊的形式和关系概念分析方法构建本体并用于标注,或使用基于维基百科大语料的词相似度技术或自然语言处理技术和TF-IDF来筛选标签标注,或基于相似规则归纳和基于条件随机场以及它们的改进算法的语义标注方法;物联网环境下的语义标注的研究较少,主要针对的是传感网中的数据,提出一些手动标注框架和语义推理算法。然而,现有的语义标注工具和平台以及Web文档语义标注,大多以文本标注和Web网页为研究对象,由于物联网设备的实物特性,比如空间、时间、环境等特点,对语义标注提供了新的要求,其标注结果往往不能满足需求;而现有的物联网环境下的语义标注主要面向的是传感器数据,且是手动语义标注方法,但是,面对海量的物联网实体,特别是数量仍在迅猛增长的物联网设备,手动或半自动语义标注显得力不从心,设备作为物联网实体的主要组成部分,针对物联网设备的自动语义标注方法的研究成为亟待解决的问题。因此,已有的语义标注方法,都不能满足对物联网海量设备的语义标注的需求。
技术实现思路
本专利技术的目的在于克服现有物联网环境下语义标注方法的不足,提出了一个物联网设备描述框架和一种面向物联网设备的自动语义标注方法,并进一步提供了一种物联网设备本体的扩展方法。本专利技术的应用对象可推广到一般的物联网实体。如此,提高语义物联网中海量实体的语义标注的效率,进一步提升服务发现系统的性能。本专利技术采用的技术方案如下。一种面向物联网设备的自动语义标注方法,其采用物联网设备描述框架描述物联网中的设备,物联网设备描述框架包括六个组成属性,即标识信息、性能指标、功能属性、设备状态、接口属性和工作环境;在设备描述框架的基础上将自动语义标注方法分为两个阶段即信息抽取阶段和标注阶段,信息抽取阶段从物联网设备信息中抽取出具体的信息,在信息抽取阶段,根据文字的不同特性,将设备的信息划分成两个部分即设备功能信息和设备非功能信息;标注阶段从本体中选取概念来为抽取出来的信息进行标注。整个自动语义标注分为五个步骤来完成,即信息的筛选和提取,设备功能信息提取,设备功能信息分类,属性信息域的分割和信息整合与语义标签选择。进一步地,所述信息的筛选和提取具体是,使用小标题训练字典,并使用字典识别新样本中的小标题并提取小标题之间的信息,信息的筛选和提取与设备功能信息提取两个步骤所使用的方法都是信息提取方法,只是所使用的训练集不同。进一步地,所述设备功能信息分类具体是,将训练集和样本集中的文本转换成向量,借助TF-IDF(termfrequency–inversedocumentfrequency)技术,使用TF和IDF生成向量并使用IDF和设定的阈值来降维,再使用向量来训练分类器和对新样本进行分类。进一步地,所述设备非功能信息分类具体,实现属性信息域的分割,包括标注字典的生成和匹配方法。进一步地,标注字典的生成方法具体是,人工从设备非功能信息中提取出性能指标,接口属性和工作环境三个属性的内容中出现的单词并构建训练集,学习训练集中的单词并更新对应的词频字典。进一步地,所述标注字典的匹配方法具体是,对设备非功能信息进行分词得到单词集,并根据标注字典来分类,并根据词频字典解决冲突,最后根据分类结果重新组织设备非功能信息中的内容。进一步地,所述信息整合和语义标签选择具体是,将设备功能信息和设备非功能信息的分类结果进行整合,并将本体引入语义标注模型,使用语义相似度从本体中筛选出本体概念URI作为语义标签用于标注。进一步地,还包括物联网设备本体扩展过程,从一个相对小的设备本体逐步扩展成物联网领域设备本体,保证了语义标签选择的准确性。进一步地,对于设备功能信息,采用文本分类方法,借助TF-IDF(termfrequency–inversedocumentfrequency)的技术,使用TF和IDF生成向量并使用IDF和设定的阈值来降维,从而将文字转换成向量,采用Bayes,SVM,KNN,神经网络等方法训练分类器用于分类。进一步地,所述标注字典匹配,在新样例分类中,将新样例分词后与标注字典中单词进行匹配并确定所属类别,若得到多个类别,可借助词频字典来选择最佳的分类类别。语义标签的选择将设备功能信息和设备非功能信息的分类结果整合在一起,使用语义相似度从设备本体中筛选出本体概念的URI作为语义标签用于标注信息并得到语义标注结果。考虑到方法的可扩展性,拥有一个设备本体是能够进行语义标签选择的前提条件,然而,事实中不一定有物联网设备领域相关的本体,为了得到正确的语义标签,本专利技术提出基于语义相似度的设备本体扩展,通过该方法,在使用的过程中不断扩展设备本体,从而使得语义标签的选择更加准确。与现有技术相比,本专利技术具有如下优点和技术效果:1.提出了一个设备描述框架。考虑到物联网设备的实物特性,比如空间、时间、环境等特点,能够系统完整地描述物联网中的设备信息,包含设备的状态信息;2.提出的自动语义标注方法不但面向传感网数据,而且面向整个物联网中的设备,且可扩展成一般的物联网实体;该方法中的语义标注是自动的,使用者只需要提供少量的训练信息,整个语义标注的过程可以自动完成,提高标注效率;3.考虑到自动语义标注方法的可扩展性,提出物联网设备本体扩展,逐步扩展设备本体,使得语义标签的选择结果更准确。附图说明图1为物联网设备描述框架示意图。图2为物联网设备信息自动语义标注方法流程示意图。图3为信息提取方法的过程示意图。图4为标注字典的结构示意图。图5为标注字典生成方法的流程示意图。图6为标注字典匹配方法的流程示意图。图7为信息整合和语义标签选择方法流程示意图。图8为物联网设备本体扩展方法中的子树结构示意图。图9为一个图8中的子树结构示意图。图10为物联网设备本体扩展方法的流程示意图。图11为物联网设备本体扩展方法中顶层概念ST匹配成功时的扩展过程示意图。图12为物联网设备本体扩展方法中顶层概念ST的子概念匹配成功时的扩展过程示意图。图13为物联网设备本体扩展方法中顶层概念ST及其子概念匹配失败时的扩展过程示意图。具体实施方式为了使本专利技术的技术方案及优点更加清楚明白,以下结合附图,进行进一步的详细说明,但本专利技术的实施和保护不限于此。1、设备描述框架物联网设备描述框架是物联网设备信息的描述方法,是面向物联网设备的自动语义标注的基础。本专利技术构建了物联网设备描述框架,如图1所示,包括多个组成部分,具体如下:标识信息(Identification):为物联网设备提供识别作用的描述信息,包括标识、名称等。性能指标(Preference):指设备的技术规格、运行参数等。功能属性(Fun本文档来自技高网
...
一种面向物联网设备的自动语义标注方法

【技术保护点】
一种面向物联网设备的自动语义标注方法,其特征在于采用物联网设备描述框架描述物联网中的设备,物联网设备描述框架包括六个组成属性,即标识信息、性能指标、功能属性、设备状态、接口属性和工作环境;在设备描述框架的基础上将自动语义标注方法分为两个阶段即信息抽取阶段和标注阶段,信息抽取阶段从物联网设备信息中抽取出具体的信息,在信息抽取阶段,根据文字的不同特性,将设备的信息划分成两个部分即设备功能信息和设备非功能信息;标注阶段从本体中选取概念来为抽取出来的信息进行标注;整个自动语义标注分为五个步骤来完成,即信息的筛选和提取,设备功能信息提取,设备功能信息分类,属性信息域的分割和信息整合与语义标签选择。

【技术特征摘要】
1.一种面向物联网设备的自动语义标注方法,其特征在于采用物联网设备描述框架描述物联网中的设备,物联网设备描述框架包括六个组成属性,即标识信息、性能指标、功能属性、设备状态、接口属性和工作环境;在设备描述框架的基础上将自动语义标注方法分为两个阶段即信息抽取阶段和标注阶段,信息抽取阶段从物联网设备信息中抽取出具体的信息,在信息抽取阶段,根据文字的不同特性,将设备的信息划分成两个部分即设备功能信息和设备非功能信息;标注阶段从本体中选取概念来为抽取出来的信息进行标注;整个自动语义标注分为五个步骤来完成,即信息的筛选和提取,设备功能信息提取,设备功能信息分类,属性信息域的分割和信息整合与语义标签选择。2.根据权利要求1所述的一种面向物联网设备的自动语义标注方法,其特征在于所述信息的筛选和提取具体是,使用小标题训练字典,并使用字典识别新样本中的小标题并提取小标题之间的信息,信息的筛选和提取与设备功能信息提取两个步骤所使用的方法都是信息提取方法,只是所使用的训练集不同。3.根据权利要求1所述的一种面向物联网设备的自动语义标注方法,其特征在于所述设备功能信息分类具体是,将训练集和样本集中的文本转换成向量,借助TF-IDF(termfrequency–inversedocumentfrequency)技术,使用TF和IDF生成向量并使用IDF和设...

【专利技术属性】
技术研发人员:刘发贵李平
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1