【技术实现步骤摘要】
结构化数据解析和管理的系统、方法、设备、介质及终端
[0001]本专利技术属于数据应用
,特别是涉及一种结构化数据解析和管理的系统、方法、设备、介质及终端。
技术介绍
[0002]结构化数据,是指符合一定数据结构,能被形式化描述的数据,如JSON数据,XML数据等。目前,在解析结构化数据文件时,通常采用的方案是:将结构化数据文件直接按字节读取到内存,在内存中形成结构化数据对象,然后访问需要的数据子项并解析。
[0003]因此目前结构化数据解析的方法中仅仅实现了自然语言到结构化数据解析。并没有实现结构化数据与自然语言的双向解析、并没有实现结构化数据的模板管理、结构化数据的编辑功能,并且缺少一体化的技术方案。本专利技术解决了以上的问题。
[0004]通过上述分析,现有技术存在的问题及缺陷为:
[0005]目前结构化数据解析的方法中仅仅实现了自然语言到结构化数据解析,并没有实现结构化数据与自然语言的双向解析、并没有实现结构化数据的模板管理、结构化数据的编辑功能,并且缺少一体化的技术方案。
专利 ...
【技术保护点】
【技术特征摘要】
1.一种结构化数据解析和管理方法,其特征在于,所述结构化数据解析和管理方法包括:通过词库升级库解析自然语言,将自然语言分词为数组、遍历数组,并与词库匹配,替换为结构化数据;通过模板态结构化元数据节点和普通文本节点构成结构化模板并进行编辑,通过插入删除修改节点,创建和更改结构化模板;通过赋值态结构化元数据节点和普通文本节点构成结构化数据并进行编辑,通过插入删除修改节点,创建和更改结构化数据;对于结构化模板转换为结构化数据中,给结构化模板中的所有的模板态结构化元数据节点赋值后,生成结构化数据;结构化模板编辑器或结构化数据编辑器中的文本解析为结构化模板或者结构化数据的节点数组,通过正则表达式将文本解析生成结构化元数据和普通文本组成的节点数组;通过语义化的模板和数据展示规则作为结构化数据和模板的展示形式。2.如权利要求1所述的结构化数据解析和管理方法,其特征在于,所述结构化数据解析和管理方法具体包括以下步骤:S1:将自然语言文本通过自然语言文本解析器解析为结构化数据,以及将结构化数据通过结构化数据编译器解析为自然语言文本;S2:结构化数据通过结构化数据编辑器可以插入、删除、修改结构化数据中的元数据,或者更换元数据的词条;S3:将结构化词库中的结构化元数据构建结构化模板;S4:结构化模板编辑器对结构化模板进行编辑;S5:结构化数据数据编辑器对结构化模板中的结构化插入、删除、修改结构化数据中的元数据,以及更换元数据的词条。3.如权利要求1所述的结构化数据解析和管理方法,其特征在于,所述自然语言文本解析器工作流程具体包括:S11、通过jieba库实现自然语言文本的分词,生成分词列表;S12、通过结构化词库,实现对jieba库的针对词库扩展;S13、通过遍历分词列表,匹配遍历词库,如果匹配到词库词条则将该词条替换为元数据,最终将替换后的分词列表拼接为结构化文本。4.如权利要求1所述的结构化数据解析和管理方法,其特征在于,所述结构化元数据的数据结构的设计,包含如下步骤:(1)通过设计数据结构,包含元数据名、相应词库、实例态词条信息;(2)拥有两种状态:模板态、实例态。使得其支持解析器、两种编辑器的需求;在步骤(1)中所述设计数据结构包括:设计普通文本节点的数据结构,用于存储非结构化节点的数据;其中索引是value,值是字符串类型的值;设计模板态元数据的数据结构:模板态是元数据未被赋值时的状态,用于结构化模板的编写;所述模板态元数据的数据结构包括名为metadataId的元数据唯一ID,以及名为name的元数据名称;其中名称用于结构化模板编辑器和数据编辑器中展示;而唯一ID用于
关联元数据的词库功能;设计元数据所属词库/词条的数据结构,词库用于关联元数据,赋予元数据真实含义;词库的数据结构由数量不等的词条组成的数组;词条的数据结构由词条所属元数据的ID、词条ID、值组成;其中值是该词条所对应的自然语言的词语;设计实例态元数据的数据结构,实例态元数据是模板态元数据赋值后的产物,继承模板态元数据的metadataId、name,另外拥有赋值的词条ID,以及词条值,实例态元数据用于结构化数据编辑器...
【专利技术属性】
技术研发人员:林超群,江文涛,卢天发,李仁杰,
申请(专利权)人:罗普特上海科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。