一种基于文本数据的标准化处理方法及设备技术

技术编号:30096809 阅读:21 留言:0更新日期:2021-09-18 09:00
本申请的目的是提供一种基于文本数据的标准化处理方法及设备,本申请通过确定待处理的至少一条原始文本数据对应的目标数据类型;然后,调用与所述目标数据类型对应的目标数据字典,所述目标数据字典包括至少一个分类字段及每个所述分类字段对应的一个或多个预设数据对象;最后,基于所述目标数据字典对所述至少一条原始文本数据进行标准化处理,得到所述至少一条原始文本数据对应的标准化数据结构数据,其中,所述标准化数据结构数据包括所述至少一个分类字段中的一个或多个分类字段及所述一个或多个分类字段中的每个分类字段对应的一个或多个目标数据对象,实现了对文本数据的标准化处理,以便后续深度挖掘数据资产的价值。价值。价值。

【技术实现步骤摘要】
一种基于文本数据的标准化处理方法及设备


[0001]本申请涉及计算机
,尤其涉及一种基于文本数据的标准化处理方法及设备。

技术介绍

[0002]现有技术中,在数据与日俱增的情况下,数据已经发展为一个具有很大潜力的数据资产。但是不同平台,不同公司等不同渠道产生的数据的格式并不是完全相同的,因此也就无法进行统一的进行标准化处理。例如:一平台有一部分文本数据全是商品的标题,另一平台又是一部分文本数据,也是商品的标题,但如何统计这两个平台中的文本数据中有多少个品牌,如何统计文本数据中各个颜色的商品数量。由于数据是文本的形式,因此无法针对各项数据指标进行深度挖掘,无法获取其中的最大的数据价值。

技术实现思路

[0003]本申请的一个目的是提供一种基于文本数据的标准化处理方法及设备,实现了对文本数据的标准化处理,以便后续深度挖掘数据资产的价值。
[0004]根据本申请的一个方面,提供了一种基于文本数据的标准化处理方法,其中,所述方法包括:
[0005]确定待处理的至少一条原始文本数据对应的目标数据类型;
[0006]调用与所述目标数据类型对应的目标数据字典,所述目标数据字典包括至少一个分类字段及每个所述分类字段对应的一个或多个预设数据对象;
[0007]基于所述目标数据字典对所述至少一条原始文本数据进行标准化处理,得到所述至少一条原始文本数据对应的标准化数据结构数据,其中,所述标准化数据结构数据包括所述至少一个分类字段中的一个或多个分类字段及所述一个或多个分类字段中的每个分类字段对应的一个或多个目标数据对象。
[0008]进一步地,上述方法中,所述确定待处理的至少一条原始文本数据对应的目标数据类型,包括:
[0009]获取待处理的至少一条原始文本数据;
[0010]对所述至少一条原始文本数据进行可提取字段的预判,确定所述至少一条原始文本数据对应的目标数据类型。
[0011]进一步地,上述方法中,所述方法还包括:
[0012]预置不同数据类型对应的数据字典,所述数据字典包括至少一个字段及每个所述字段对应的一个或多个预设数据对象。
[0013]进一步地,上述方法中,所述基于所述目标数据字典对所述至少一条原始文本数据进行标准化处理,得到所述至少一条原始文本数据对应的标准化数据结构数据,其中,所述标准化数据结构数据包括所述至少一个分类字段中的一个或多个分类字段及所述一个或多个分类字段中的每个分类字段对应的一个或多个目标数据对象,包括:
[0014]对所述至少一条原始文本数据中的每条原始文本数据进行大小写转换、空格去除及特殊字符的过滤,得到预处理后的至少一条原始文本数据;
[0015]基于所述目标数据字典对所述预处理后的至少一条原始文本数据依序进行分词处理,得到所述至少一条原始文本数据对应的所述一个或多个分类字段及所述一个或多个分类字段中的每个分类字段对应的一个或多个预设数据对象;
[0016]基于所述目标数据字典对所述一个或多个分类字段中的每个分类字段对应的一个或多个预设数据对象进行字段信息的标注,得到所述一个或多个分类字段中的每个分类字段对应的一个或多个目标数据对象,以得到所述至少一条原始文本数据对应的标准化数据结构数据。
[0017]根据本申请的另一方面,还提供了一种非易失性存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如上述基于文本数据的标准化处理方法。
[0018]根据本申请的另一方面,还提供了一种基于文本数据的标准化处理设备,其中,该设备包括:
[0019]一个或多个处理器;
[0020]计算机可读介质,用于存储一个或多个计算机可读指令,
[0021]当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述基于文本数据的标准化处理方法。
[0022]与现有技术相比,本申请通过先确定待处理的至少一条原始文本数据对应的目标数据类型;然后,调用与所述目标数据类型对应的目标数据字典,所述目标数据字典包括至少一个分类字段及每个所述分类字段对应的一个或多个预设数据对象;最后,基于所述目标数据字典对所述至少一条原始文本数据进行标准化处理,得到所述至少一条原始文本数据对应的标准化数据结构数据,其中,所述标准化数据结构数据包括所述至少一个分类字段中的一个或多个分类字段及所述一个或多个分类字段中的每个分类字段对应的一个或多个目标数据对象,实现了对文本数据的标准化处理,以便后续深度挖掘数据资产的价值。
附图说明
[0023]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0024]图1示出根据本申请一个方面的一种基于文本数据的标准化处理方法的流程示意图;
[0025]图2示出根据本申请一个方面的一种基于文本数据的标准化处理方法的一实际应用场景的示意图;
[0026]图3示出根据本申请一个方面的一种基于文本数据的标准化处理方法在实际应用场景中的流程示意图。
[0027]附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
[0028]下面结合附图对本申请作进一步详细描述。
[0029]在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
[0030]内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
[0031]计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD

ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0032]如图1所示,本申请的一个方面提出了一种基于文本数据的标准化处理方法的流程示意图,其中,所述方法包括步骤S11、步骤S12及步骤S13,具体包括如下步骤:
[0033]步骤S11,确定待处理的至少一条原始文本数据对应的目标数据类型;在此,所述目标数据类型包括但不限于智能终端类、销售类、论文类、金融类及成绩类等各个应用领域对应数据的类型。
[0034]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本数据的标准化处理方法,其中,所述方法包括:确定待处理的至少一条原始文本数据对应的目标数据类型;调用与所述目标数据类型对应的目标数据字典,所述目标数据字典包括至少一个分类字段及每个所述分类字段对应的一个或多个预设数据对象;基于所述目标数据字典对所述至少一条原始文本数据进行标准化处理,得到所述至少一条原始文本数据对应的标准化数据结构数据,其中,所述标准化数据结构数据包括所述至少一个分类字段中的一个或多个分类字段及所述一个或多个分类字段中的每个分类字段对应的一个或多个目标数据对象。2.根据权利要求1所述的方法,其中,所述确定待处理的至少一条原始文本数据对应的目标数据类型,包括:获取待处理的至少一条原始文本数据;对所述至少一条原始文本数据进行可提取字段的预判,确定所述至少一条原始文本数据对应的目标数据类型。3.根据权利要求1所述的方法,其中,所述方法还包括:预置不同数据类型对应的数据字典,所述数据字典包括至少一个字段及每个所述字段对应的一个或多个预设数据对象。4.根据权利要求1至3中任一项所述的方法,其中,所述基于所述目标数据字典对所述至少一条原始文本数据进行标准化处理,得到所述至少一条原始文本数据对应的标准化数据结构数据,其中,所述标准化数据结构数据包...

【专利技术属性】
技术研发人员:段稳过
申请(专利权)人:上海万物新生环保科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1