非结构化源数据的云端自主逻辑归档方法技术

技术编号:20797069 阅读:35 留言:0更新日期:2019-04-06 10:40
本发明专利技术涉及一种非结构化源数据的云端自主逻辑归档方法,其特征在于:根据非结构化数据的自然语言描述内容,云端存储系统即可对其作出自主逻辑归档处理,对非结构化数据的描述内容进行抽离处理,利用句法分词、语义分析、相似度比较等自然语言处理操作,并自动为其分配相关的分词标签、简短摘要;其解决了云端存储过程过分依赖于主观操作的现实问题、低效问题;有效地提高了云端存储系统对自然语言的理解能力,从而有利于非结构化数据的云端自主逻辑归档。

Cloud-based Autonomous Logic Archiving Method for Unstructured Source Data

The invention relates to a cloud-based autonomous logical archiving method for unstructured source data, which is characterized by: according to the natural language description content of unstructured data, cloud-based storage system can make autonomous logical archiving for unstructured source data, extract and process the description content of unstructured data, and use natural language processing operations such as syntactic word, semantic analysis, similarity comparison, etc. It solves the practical and inefficient problem that cloud storage process relies too much on subjective operation, and effectively improves the ability of cloud storage system to understand natural language, which is conducive to cloud independent logical archiving of unstructured data.

【技术实现步骤摘要】
非结构化源数据的云端自主逻辑归档方法
本专利技术涉及一种非结构化源数据的云端自主逻辑归档方法,属于非结构化数据云存储

技术介绍
云存储以数据存储和管理服务为核心单元,利用集群部署、分布式文件系统、异构整合、网络互连等技术手段构造存储环境,通过开放API、RESTful或WebService接口的形式对外提供存储服务、访问服务、控制服务等操作事件,以解决常规存储系统难以柔性扩展、基础设施臃肿、异构兼容性差等众多难题。分布式文件系统Ceph作为云计算生态系统中得到公认的存储解决方案,以其独有的功能架构占据了相当重要的主导地位,它由数据用户客户端、元数据服务集群、对象存储集群、集群监视器四部分组成。非结构化数据具有“单次写入,反复读取”的特点,并且非结构化数据存在数量众多、格式多样、动态变化、组织松散、内容多源等固有属性,非结构化数据包括:视频文件、音频文件、图片文件、模型文件、字体文件等等。关于非结构化数据分类存储与归档方面的研究工作和技术方案尚未见显著成果,这不仅与用户操作的主观随意性相关,更与非结构化数据自身内容的未知性相关。也正是因为如此,现阶段对非结构化数据的分类存储与本文档来自技高网...

【技术保护点】
1.非结构化源数据的云端自主逻辑归档方法,其特征在于:根据非结构化数据的自然语言描述内容,云端存储系统即可对其作出自主逻辑归档处理,并自动为其分配相关的分词标签、简短摘要;该方法的具体实现步骤如下:步骤S1、云端存储过程按原有存储策略对非结构化数据UD进行物理存放,且非结构化数据存储表DST自动生成非结构化数据索引值UID;步骤S2、云端存储过程将非结构化数据UD的自然语言描述内容DESC传递给逻辑归档处理过程,并在逻辑归档表LST中新添记录LNM,将记录LNM的非结构化数据ID字段赋值为非结构化数据索引值UID,将记录LNM的数据内容描述字段赋值为自然语言描述内容DESC;步骤S3、逻辑归档...

【技术特征摘要】
1.非结构化源数据的云端自主逻辑归档方法,其特征在于:根据非结构化数据的自然语言描述内容,云端存储系统即可对其作出自主逻辑归档处理,并自动为其分配相关的分词标签、简短摘要;该方法的具体实现步骤如下:步骤S1、云端存储过程按原有存储策略对非结构化数据UD进行物理存放,且非结构化数据存储表DST自动生成非结构化数据索引值UID;步骤S2、云端存储过程将非结构化数据UD的自然语言描述内容DESC传递给逻辑归档处理过程,并在逻辑归档表LST中新添记录LNM,将记录LNM的非结构化数据ID字段赋值为非结构化数据索引值UID,将记录LNM的数据内容描述字段赋值为自然语言描述内容DESC;步骤S3、逻辑归档处理过程将自然语言描述内容DESC和句子数N作为参数传递给HanLP的过程函数extractSummary;步骤S4、过程函数extractSummary根据TextRank算法对自然语言描述内容DESC进行抽取式摘要提取,从而得到自然语言描述内容DESC的抽取式摘要ABS,将记录LNM的数据描述摘要字段赋值为抽取式摘要ABS;步骤S5、利用数组结构,将逻辑分类表LCT的全部M个逻辑分类描述信息组织成逻辑分类描述数组LCDA,LCDA={LCD1,LCD2,……,LCDM},并将逻辑分类描述数组LCDA的所有逻辑分类描述信息LCD1、LCD2、……、LCDM添加至HanLP的Suggester容器;步骤S6、使用Suggester容器的过程函数suggest进行最佳逻辑分类描述的选取,将抽取式摘要ABS作为参数传递给过程函数suggest,从而得到与抽取式摘要ABS相似度最大的逻辑分类描述LCA;步骤S7、把抽取式摘要ABS和关键词个数P作为过程函数的调用参数,传递给HanLP的过程函...

【专利技术属性】
技术研发人员:张超韩成蒋振刚于翠红薛耀红李华权巍胡汉平耿雪娜
申请(专利权)人:长春理工大学
类型:发明
国别省市:吉林,22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1