一种面向物联网的基于语义聚类的物资信息检索方法技术

技术编号:9406327 阅读:170 留言:0更新日期:2013-12-05 06:09
本发明专利技术是一种面向物联网的基于语义聚类的物资信息检索方法,基于语义分析及PML,结合分层聚类技术,对大规模存在于EPCIS中的物资信息实现有效且快速的信息检索。本发明专利技术提供一种基于Web平台的适用于新兴物联网领域的RFID和EPC物资管理系统的信息检索方法。目前已研究的检索方法与EPC系统的简单结合,并不能满足该系统存储量的规模,本方法基于用户的Web查询意向,将聚类算法运用到EPCIS中的信息检索中,通过使用本发明专利技术提出的方法可以在一定程度上提高物联网信息检索的便捷性,以及更加有利于用户选择符合自己需求的检索信息,从而进一步提高了用户查找物资的效率和准确性。

【技术实现步骤摘要】

【技术保护点】
一种面向物联网的基于语义聚类的物资信息检索方法,其特征在于该检索方法包括语义分析、关键词提取、优先数分配、PML归一化、层次聚类模块,具体步骤为:步骤1)用户在Web应用平台上输入所要检索物资的相关信息;步骤2)语义分析的任务就是自动地、批量地对Web页面进行分析,并自动提取领域的语义信息,采用先对Web内容进行预处理,去除网页内的噪音的方法,以提高语义分析提取信息的速度和精度,具体的语义分析过程如下:步骤21:对Web页面输入的文本进行噪音清洗处理,就是去除与网页主题无关的内容;步骤22:对经过噪音清洗的Web页面进行预处理,把相关的内容文本进行短句、词性划分;步骤23:从经过预处理后的文本中识别出重点词,即文本中基本的信息元素,这些重点词识别依据是现存的人工参与制定的规则;步骤24:在整个文本中找出个体事实之间的引用和关联关系,通过分析同一事实在文本中不同部分的不同描述,合并相同的实体,整合出更大粒度的信息点,即下一步需要的关键词:???????????????????????????????????????????????;步骤3)为了减少不必要的重复聚类,进一步提高检索效率,根据现有的词频统计资料,经过相互比较,为词频最低的关键词分配优先数为1,然后依次确定各个层级的关键词的优先数,假设关键词个数为n,具体过程如下:步骤31:根据已有资料统计各关键词的词频;步骤32:采用冒泡排序的第一趟算法,两两比较相邻关键词的词频,从而得到词频的最小值,对该关键词赋予优先数1;步骤33:重复步骤32,为剩下的关键词分别分配优先数2,3,…,n;步骤4)根据得到的优先数,按照优先数由大到小的顺序依次将各关键词归一化为PML格式的文件,作为与电子产品代码信息服务EPCIS管理下的数据库进行数据通信的基础;步骤5)在数据库中采用凝聚层次聚类的方式对数据进行聚类,相似度区间划分为51%??100%、0—50%;最终结果以文件夹和子文件夹的形式展现在用户检索的页面上,文件夹以可变长度的句子命名,具体算法如下:步骤51:按照上述归一化的顺序,第一个生成的PML描述的关键词作为第一层聚类的特征值,将各原子簇的属性和关键词进行比较,根据相似度分别将它们合并到同一相似度区间的簇中;步骤52:将得到结果中的每个簇作为整体放入对应的文件夹中,文件夹以聚类采用的关键词及相似度区间共同命名,即“关键词+相似度区间”,所有文件以并列的形式存在;步骤53:将第二个生成的PML描述的关键词作为第二层聚类的特征值,将步骤52所得的文件名为“关键词+51%??100%”文件夹中的各数据作为原子簇,重复步骤51中聚类过程;步骤54:将步骤53所得的结果放入按照步骤52的命名原则得到的相应新文件夹中;步骤55:按照顺序依次对上一步生成的文件进行聚类,每次都是对文件名为“关键词+51%??100%”的文件夹进行新的聚类,直到最后一个关键词聚类完为止。dest_path_image002.jpg,dest_path_image004.jpg...

【技术特征摘要】

【专利技术属性】
技术研发人员:叶宁赵婷婷王汝传林巧民王忠勤
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1