标记由物联网中的物体产生的原始数据的方法及系统技术方案

技术编号:8682760 阅读:162 留言:0更新日期:2013-05-09 02:43
本发明专利技术公开涉及标记由物联网中的物体产生的原始数据的方法及系统。所述方法包括:包括:对获得的Web消息进行相关性检测以获得与各种事件相关的Web消息;获取所述相关的Web消息所包含的地址信息;基于所获得的地址信息确定与所述各种事件接近的物体;以及使用所述相关的Web消息的至少部分内容作为元数据,标记由所确定的接近物体产生的原始数据。通过使用本发明专利技术,使得可以给人类难以理解的来自各种各样物体的原始数据添加自然语言的元数据,以便可以使用自然语言来进行检索和进行数据挖掘。

【技术实现步骤摘要】
标记由物联网中的物体产生的原始数据的方法及系统
本专利技术公开涉及数据处理技术,尤其是,涉及一种标记由物联网中的物体产生的原始数据的方法及系统。
技术介绍
物联网(InternetofThings,IoT)被认为是互联网的下一次重要革命。所谓的物联网就是把诸如感测设备之类的物体装备到街道、公路、建筑、供水系统以及家用电器等各种真实物体上,通过互联网联接起来,进而运行特定的程序,达到远程控制或者实现物与物的直接通信。物联网将连接对象的范围从电子设备扩展到真实世界中的各种各样的物体,即通过装备在各类物体上的射频识别(RFID)、传感器、二维码等,经过接口与无线网络相连,实现人与物体的沟通和对话,也可以实现物体与物体互相间的沟通和对话。例如,在不远的将来,家用电器、医院设备、甚至T恤衫都可以联网和在网络上被访问,就像网页和远程服务器一样。结果,所有真实世界中的物体都可以通过联网被监控和操作,并且其行动可以被编程以给人类提供方便。在物联网中,给定一个事件,如何获得记录相关信息的传感器是一个问题。例如,给定查询“汽车追尾”,如何找到记录这种事件的摄像头。这种物联网搜索对于物联网来说,是非常重要的应用。不同于当前的WWW网络,构建IoT搜索引擎存在以下挑战:首先,真实世界中的物体具有指数量级的总数。互联网对象将编码50万亿至100万亿个物体。每个人都被1000到500个物体包围着。对于当前的搜索引擎,巨大的数据量是负担不起的。而据统计,在2008年谷歌公司的搜索引擎仅索引10亿个网页。其次,物联网中的各种物体所获得的原始数据可能具有图像、视频、音频、数字数据序列、小波等的格式,基本上没有元数据可用于描述这些原始数据的语义,且计算机本身也不能理解这些数据文件的内容。也就是,所获得的原始数据难以传递人类的观点和情感,而人类也难以理解这些原始数据。面对丰富的原始数据,人们却难以通过自然语言对相关信息进行查询、对原始数据之间的关联性进行挖掘等。目前存在对于原始数据进行深层次处理的技术,但是由于IoT中的诸如传感器之类的物体的总量巨大,所以使用诸如计算图象技术的深层次处理来提取语义注释在计算上是负担不起的。此外,即使利用深层次处理,由于诸如查询之类的应用的灵活性,需要建立大量的模型来处理各种应用。这种实现也是不可取的。图1是示出了现有技术中实际应用与物体产生的原始数据之间的问题的示意图。如图1所示,用户使用人类语言在网络上对传感器数据进行查询。但是,即使存在大量的原始数据文件,由于用户的自然语言查询和传感器的原始数据文件之间存在巨大的鸿沟,并且原始数据文件也几乎没有元数据来描述其语义,因此用户不能得到期望的查询结果。因此,如何将自然语言查询与原始数据联系起来以便于进行数据的搜索和挖掘以及数据关联性的挖掘等等是现有技术中存在的一个技术问题。因此,现有技术中需要标记由物联网中的物体产生的原始数据以便进行进一步数据处理的技术。
技术实现思路
为了解决现有技术中存在的上述问题中的至少一个,而提出了本专利技术公开。根据本专利技术公开的一个方面的一个实施例提供了一种利用Web消息来给原始数据加标记以使原始数据具有描述其语义的元数据从而帮助理解原始数据的内容的技术方案。本专利技术的专利技术人注意到诸如博客和微博之类的Web消息正在被广泛地应用。本文中提及的“Web消息”是指具有广泛性和相关性的网络上传递的内容。所谓的“广泛性”是指Web消息的内容多种多样,涉及到现实世界中发生的各种事情以及人类的思想等等,以及Web消息的用户可以使用诸如移动终端或固定终端之类的各种设备在网络上随时发布Web消息。Web消息可以包括文本、文档、图标、照片、音频、视频等等。所谓的“相关性”是指Web消息的内容与所关心事件有关,例如Web消息的发布时间与所关心事件的发生时间之差在预定范围内且都是关于相似的事件,则认为Web消息与所关心事件具有相关性。此外,对于本专利技术而言,Web消息是具有用户在发送Web消息时的地址信息的Web消息。微博是Web消息的一个典型示例。微博是一种允许用户及时更新的简短文本(通常少于140字)并可以公开发布的博客形式。微博服务包括诸如Twitter、Yahoo、Sina、Sohu、163等。微博最近日渐繁荣,并且已经吸引了大量用户。根据2010年4月的统计数据,作为微博的代表性网站的Twitter具有100多万注册用户且每天还有30多万的新用户。每天平均发布5千5百多万条Twitter微博,内容无所不包。在所有这些Twitter微博中,超过37%是通过移动设备发布的,并且其实际发布的位置也大部分可以被获得。由于Web消息的普遍使用(换言之,具有相关性和广泛性)和知道位置的特征,专利技术人设想了利用Web消息来丰富传感器数据的语义。具体而言,本专利技术通过识别Web消息与传感器之间的关系,然后分配相关的Web消息的至少一部分内容作为标签以注释传感器数据的语义来填平了人类理解与物体获得的原始数据之间的鸿沟,从而解决了现有技术中存在的问题。更进一步地,可以利用这些语义标记来支持对传感器数据的搜索和挖掘功能以及其它对原始数据的应用。本专利技术公开的实施例可以以包括方法或系统的多种方式实施。下面讨论本专利技术公开的几个实施例。作为一种标记由物联网中的物体产生的原始数据的方法的方法,本专利技术公开的一个实施例至少包括:对获得的Web消息进行相关性检测以获得与各种事件相关的Web消息;获取所述相关的Web消息所包含的地址信息;基于所获得的地址信息确定与所述各种事件接近的物体;以及使用所述相关的Web消息的至少部分内容作为元数据,标记由所确定的接近物体产生的原始数据。作为一种标记由物联网中的物体产生的原始数据的系统,本专利技术公开的一个实施例至少包括:用于对获得的Web消息进行相关性检测以获得与各种事件相关的Web消息的装置;用于获取所述相关的Web消息所包含的地址信息的装置;用于基于所获得的地址信息确定与所述各种事件接近的物体的装置;以及用于使用所述相关的Web消息的至少部分内容作为元数据,标记由所确定的接近物体产生的原始数据的装置。作为一种在物联网中搜索物体的方法,本专利技术公开的一个实施例至少包括:使用自然语言输入查询项;以及使用所述查询项,基于物联网中的物体的元数据,产生搜索结果;其中所述元数据是使用上述方法产生的。作为一种在物联网中搜索物体的设备,本专利技术公开的一个实施例至少包括:用于使用自然语言输入查询项的装置;以及用于使用所述查询项,基于物联网中的物体的元数据,产生搜索结果的装置;其中所述元数据是使用上述系统产生的。作为一种网络上使用的搜索引擎,本专利技术公开的一个实施例至少包括:用于接收用户输入的模块;上述系统;以及用于根据用户输入和由所述设备产生的信息来进行检索的模块。附图说明本说明中所参考的附图只用于示例本专利技术的典型实施例,不应该认为是对本专利技术范围的限制。图1是示出了现有技术中实际应用与物体产生的原始数据之间的问题的示意图。图2是示出了根据本专利技术公开的一个实施例的用于标记由物联网中的物体产生的原始数据的方法的流程图。图3是示出了根据本专利技术的一个实施例的基于每一用户所发的Web消息的地址信息使用曲线拟合所获得的曲线的示意图。图4是示出了根据本专利技术公开的一个实施例的用于标记由物本文档来自技高网
...
标记由物联网中的物体产生的原始数据的方法及系统

【技术保护点】
一种标记由物联网中的物体产生的原始数据的方法,包括:对获得的Web消息进行相关性检测以获得与各种事件相关的Web消息;获取所述相关的Web消息所包含的地址信息;基于所获得的地址信息确定与所述各种事件接近的物体;以及使用所述相关的Web消息的至少部分内容作为元数据,标记由所确定的接近物体产生的原始数据。

【技术特征摘要】
1.一种标记由物联网中的物体产生的原始数据的方法,包括:对获得的Web消息进行相关性检测以获得与各种事件相关的Web消息,所述Web消息的用户使用各种设备在网络上随时发布所述Web消息;获取所述相关的Web消息所包含的地址信息;基于所获得的地址信息确定与所述各种事件接近的物体;以及使用所述相关的Web消息的至少部分内容作为元数据,标记由所确定的接近物体产生的原始数据。2.根据权利要求1所述的方法,其中,所述基于所获得的地址信息确定与所述各种事件接近的物体的步骤包括:从所述相关的Web消息中获取与同一用户相关的地址信息;基于所述所获取的地址信息使用曲线拟合以生成拟合的曲线;以及基于物联网中的物体的位置信息和所拟合的曲线,确定所述物体的接近度。3.根据权利要求2所述的方法,其中,按照各个物体的位置信息与所述所拟合的曲线的距离中的最小值、或按照各个物体的位置信息与所述所拟合的曲线的最大距离的最小值、或按照各个物体的位置信息与所述所拟合的曲线的平均距离的最小值、或按照各个物体的位置信息与所述所拟合的曲线的最大距离的平方值的最小值,来确定各个物体与所关心的事件的接近度。4.根据权利要求1所述的方法,还包括:对网络上出现的Web消息实时地进行索引;以及从索引后的Web消息中检索出与所述各种事件中的所关心事件有关的所有Web消息。5.根据权利要求1所述的方法,其中,使用所述相关的Web消息的发布时间和与所关心的事件有关的词语,产生用于标记由接近的物体产生的原始数据的元数据。6.根据权利要求5所述的方法,其中,基于所述元数据,来对使用自然语言进行的查询进行响应。7.根据权利要求2所述的方法,还包括:按照各个物体的接进度,对所述各个物体进行排序。8.一种标记由物联网中的物体产生的原始数据的系统,包括:用于对获得的Web消息进行相关性检测以获得与各种事件相关的Web消息的装置,所述Web消息的用户使用各种设备在网络上随时发布所述Web消息;用于获取所述相关的Web消息所包含的地址信息的装置;用于基于所获得的地址信息确定与所述各种事件接近的物体的装置;以及用于使用所述相关的Web...

【专利技术属性】
技术研发人员:吴贤蔡柯柯张硕夏立军姚剑张俐苏中
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1