网络数据的结构化处理方法和装置制造方法及图纸

技术编号:20545859 阅读:27 留言:0更新日期:2019-03-09 18:47
本申请公开了一种网络数据的结构化处理方法和装置。其中,该方法包括:获取第一网络数据,其中,第一网络数据为半结构化或非结构化网络数据;展示第一网络数据和第二网络数据,其中,第二网络数据是自动对第一网络数据进行结构化处理得到的结构化网络数据;接收用户操作指令,其中,用户操作指令是指对第一网络数据和/或第二网络数据进行操作以得到第三网络数据的指令;展示第三网络数据,其中,第三网络数据为根据用户操作指令得到的符合条件的结构化数据。本申请实现了结合自动化识别和人工操作来将非结构化网络数据和/或半结构化网络数据进行结构化处理的技术效果。

Structured Processing Method and Device for Network Data

This application discloses a structured processing method and device for network data. Among them, the method includes: obtaining the first network data, in which the first network data is semi-structured or unstructured network data; displaying the first network data and the second network data, in which the second network data is structured network data automatically from the first network data; receiving user operation instructions, in which user operation instructions refer to pairs of structured network data. The first network data and/or the second network data are manipulated to obtain instructions for the third network data, and the third network data is displayed, where the third network data is structured data that meets the requirements according to the user's operation instructions. This application achieves the technical effect of structured processing of unstructured network data and/or semi-structured network data combined with automatic identification and manual operation.

【技术实现步骤摘要】
网络数据的结构化处理方法和装置
本申请涉及数据处理领域,具体而言,涉及一种网络数据的结构化处理方法和装置。
技术介绍
随着网络技术的大力发展,通过网络获取数据已成为当前人们获取信息资源的重要途径,也为基于海量数据进行数据挖掘、分析和处理处理提供了基础。然而,目前网络中充斥着大量的半结构化或非结构化数据,这些数据都需要进行结构化处理之后才能使用。在现有的技术方案中,通常基于一种算法对半结构化或非结构化数据进行自动识别,将其处理为结构化数据,或者通过人工点击选择操作对半结构化或非结构化数据进行自动识别,由于网络数据的多样性,基于算法的自动识别方法准确率不足,而人工点击选择操作由于过于依赖人工操作无法实现自动化的处理过程导致效率过低。针对上述网络数据从半结构化或非结构化到结构化处理的过程中,自动化识别处理准确率不足和人工点击选择操作效率低下的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种网络数据的结构化处理方法和装置,以至少解决网络数据从半结构化或非结构化到结构化处理的过程中,自动化识别处理准确率不足和人工点击选择操作效率低下的技术问题。根据本申请实施例的一个方面,提供了一种网络数据的结构化处理方法,包括:获取第一网络数据,其中,第一网络数据为半结构化或非结构化网络数据;展示第一网络数据和第二网络数据,其中,第二网络数据是自动对第一网络数据进行结构化处理得到的结构化网络数据;接收用户操作指令,其中,用户操作指令是指对第一网络数据和/或第二网络数据进行操作以得到第三网络数据的指令;展示第三网络数据,其中,第三网络数据为根据用户操作指令得到的符合条件的结构化数据。根据本申请实施例的另一方面,还提供了一种网络数据的结构化处理装置,包括:网络数据载入装置,用于获取第一网络数据,其中,第一网络数据为半结构化或非结构化网络数据;网络数据预览装置,与网络数据载入装置通信,用于展示第一网络数据;数据处理装置,与网络数据预览装置通信,用于对第一网络数据进行结构化处理得到的第二网络数据;结构化数据预览装置,与数据处理装置通信,用于展示第二网络数据;其中,结构化数据预览装置还用于接收用户操作指令,展示第三网络数据,用户操作指令是指对第一网络数据和/或第二网络数据进行操作以得到第三网络数据的指令,第三网络数据为根据用户操作指令得到的符合条件的结构化数据。根据本申请实施例的另一方面,还提供了一种网络数据的结构化处理方法,包括:显示输入界面,其中,输入界面用于接收第一网络数据的地址信息;显示预览界面,其中,预览界面包括:第一预览区域和第二预览区域,第一预览区域用于展示第一网络数据,第二预览区域用于展示第二网络数据,其中,第二网络数据是自动对第一网络数据进行结构化处理得到的结构化网络数据;其中,第二预览区域还用于展示第三网络数据,第三网络数据为根据预览界面接收到的用户操作指令得到的符合条件的结构化数据。根据本申请实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,程序执行上述任意一项的网络数据的结构化处理方法。根据本申请实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任意一项的网络数据的结构化处理方法。在本申请实施例中,通过获取第一网络数据,其中,第一网络数据为半结构化或非结构化网络数据;展示第一网络数据和第二网络数据,其中,第二网络数据是自动对第一网络数据进行结构化处理得到的结构化网络数据;接收用户操作指令,其中,用户操作指令是指对第一网络数据和/或第二网络数据进行操作以得到第三网络数据的指令;展示第三网络数据,其中,第三网络数据为根据用户操作指令得到的符合条件的结构化数据,达到了结合自动化识别和人工操作来将非结构化网络数据和/或半结构化数据进行结构化处理的目的,从而实现了提高识别准确率以及工作效率的技术效果,进而解决了网络数据从半结构化或非结构化到结构化处理的过程中,自动化识别处理准确率不足和人工点击选择操作效率低下的技术问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的一种网络数据的结构化处理方法流程图;图2是根据本申请实施例的一种可选的获取第一网络数据的界面示意图;图3是根据本申请实施例的一种可选的显示第一网络数据和第二网络数据的预览界面示意图;图4是根据本申请实施例的一种可选的显示第一网络数据和第三网络数据的预览界面示意图;图5是根据本申请实施例的一种网络数据的结构化处理装置示意图;图6是根据本申请实施例的一种可选的网络数据的结构化处理方法流程图;图7是根据本申请实施例的一种网页数据的结构化处理装置示意图;图8是根据本申请实施例的一种可选的网页数据的结构化处理方法流程图;图9是根据本申请实施例的一种移动终端应用数据的结构化处理装置示意图;图10是根据本申请实施例的一种可选的移动终端应用数据的结构化处理方法流程图;以及图11是根据本申请实施例的又一种网络数据的结构化处理方法流程图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。根据本申请实施例,提供了一种网络数据的结构化处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本申请实施例的一种网络数据的结构化处理方法流程图,如图1所示,该方法包括如下步骤:S102,获取第一网络数据,其中,第一网络数据为半结构化或非结构化网络数据。具体地,上述第一网络数据可以是非结构化数据(例如,各种格式的办公文档、文本、图片、XML,HTML、各类报表、图像和音频/视频信息等),也可以是半结构化数据(介于非结构化数据与结构化数据之间的数据,例如,XML、HTML文档等)。作为一种可选的实施方式,本申请各个实施例中提到的网络数据可以是从各种基于Web的应用(例如,百度浏览器、谷歌浏览器等)中导入的数据,称为网页数据;作为另一种可选的实施方式,本申请各个实施例中提到的网络数据可以是从移动终端应用(例如,淘宝APP、京东APP等)中获取到的数据,称为应用数据。其中,在第一网络数据为网页数据的情况下,上述步骤S102可以包括:接收第一网络数据的地址信息;根据地址信息,获取第一网络数据。可选地,该地址信息可以是网址信息。通过输入某一个网页的网址,导入该网址对应的网页数据。进一步地,在获取第一网络数据之后,还需本文档来自技高网
...

【技术保护点】
1.一种网络数据的结构化处理方法,其特征在于,包括:获取第一网络数据,其中,所述第一网络数据为半结构化或非结构化网络数据;展示所述第一网络数据和第二网络数据,其中,所述第二网络数据是自动对所述第一网络数据进行结构化处理得到的结构化网络数据;接收用户操作指令,其中,所述用户操作指令是指对所述第一网络数据和/或所述第二网络数据进行操作以得到第三网络数据的指令;展示所述第三网络数据,其中,所述第三网络数据为根据所述用户操作指令得到的符合条件的结构化数据。

【技术特征摘要】
1.一种网络数据的结构化处理方法,其特征在于,包括:获取第一网络数据,其中,所述第一网络数据为半结构化或非结构化网络数据;展示所述第一网络数据和第二网络数据,其中,所述第二网络数据是自动对所述第一网络数据进行结构化处理得到的结构化网络数据;接收用户操作指令,其中,所述用户操作指令是指对所述第一网络数据和/或所述第二网络数据进行操作以得到第三网络数据的指令;展示所述第三网络数据,其中,所述第三网络数据为根据所述用户操作指令得到的符合条件的结构化数据。2.根据权利要求1所述的方法,其特征在于,接收用户操作指令,包括如下任意之一:接收删除指令,其中,所述删除指令用于删除所述第二网络数据中的一个或多个字段;接收编辑指令,其中,所述编辑指令用于编辑所述第二网络数据中的一个或多个字段;接收添加指令,其中,所述添加指令用于向所述第二网络数据中添加一个或多个字段。3.根据权利要求2所述的方法,其特征在于,在接收添加指令之后,所述方法还包括:接收点击指令,其中,所述点击指令为点击所述第一网络数据中一个或多个数据元素的指令;根据所述点击指令所点击的数据元素,在所述第二网络数据中添加新的字段;对第一网络数据中所点击的数据元素对应的数据进行结构化处理并同步到新添加的字段中,更新第二网络数据得到第三网络数据。4.根据权利要求1所述的方法,其特征在于,获取第一网络数据,包括:接收所述第一网络数据的地址信息;根据所述地址信息,获取所述第一网络数据。5.根据权利要求1所述的方法,其特征在于,在基于所述操作指令,展示第三网络数据之后,所述方法还包括:接收数据导出指令,其中,所述数据导出指令用于将所述第三网络数据导出到预定格式的文件中;根据所述数据导出指令,导出所述第三网络数据。6.根据权利要求1至5中任意一项所述的方法,其特征在于,所述网络数据包括如下至少之一:网页数据、...

【专利技术属性】
技术研发人员:吴桐师敬超刘钱飞
申请(专利权)人:杭州快忆科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1