【技术实现步骤摘要】
数据处理方法、装置及计算机可读存储介质
[0001]本专利技术涉及数据处理领域,具体而言,涉及一种数据处理方法、装置及计算机可读存储介质。
技术介绍
[0002]在相关技术中,通常采用离线数据管理或人工标注的方法对非结构化数据进行打标,但上述方法的打标效果差、效率低、实时性差,其面向大规模数据的存储能力也不足。
[0003]因此,在相关技术中,存在针对非结构化数据打标效果差、效率低、实时性差的技术问题。
[0004]针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
[0005]本专利技术实施例提供了一种数据处理方法、装置及计算机可读存储介质,以至少解决针对非结构化数据打标效果差、效率低、实时性差的技术问题。
[0006]根据本专利技术实施例的一个方面,提供了一种数据处理方法,包括:获取目标非结构化数据;采用预定打标模型,对目标非结构化数据进行打标,得到目标非结构化数据的新增标签;确定目标非结构化数据的历史标签,其中,历史标签为来自预定数据库中的已有标签;基于新增标签和历史标签 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取目标非结构化数据;采用预定打标模型,对所述目标非结构化数据进行打标,得到所述目标非结构化数据的新增标签;确定所述目标非结构化数据的历史标签,其中,所述历史标签为来自预定数据库中的已有标签;基于所述新增标签和所述历史标签,对所述目标非结构化数据进行打标,得到所述目标非结构化数据的目标标签。2.根据权利要求1所述的方法,其特征在于,所述采用预定打标模型,对所述目标非结构化数据进行打标,得到所述目标非结构化数据的新增标签,包括:在所述目标非结构化数据为采用分布式流的处理方式获取的多个非结构化数据的情况下,基于对应的分布式流的处理方式,采用所述预定打标模型,对所述目标非结构化数据进行打标,得到所述目标非结构化数据的新增标签。3.根据权利要求2所述的方法,其特征在于,所述分布式流的处理方式所采用的分布式计算引擎为Flink引擎。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述新增标签和所述历史标签分别存储至预定分布式数据库中。5.根据权利要求1所述的方法,其特征在于,所述基于所述新增标签和所述历史标签,对所述目标非结构化数据进行打标,得到所述目标非结构化数据的目标标签,包括:在所述新增标签和所述历史标签为不同类型标签的情况下,对所述新增标签和所述历史标签进行组合,得到组合标签;将所述组合标签设置为所述目标非结构化数据的所述目标标签。6.根据权利要求1所述的方法,其特征在于,所述基于所述新增标签和所述历史标签,对所述目标非结构化数据进行打标,得到所述目标非结构化数据的目标标签,包括:在所述新增标签和所述历史...
【专利技术属性】
技术研发人员:胡波,张鹏翼,门蓉,韦崇凯,
申请(专利权)人:北京大学重庆大数据研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。