一种数据处理方法及系统技术方案

技术编号:30634127 阅读:18 留言:0更新日期:2021-11-04 00:16
本申请公开了一种数据处理方法及系统,获取目标地址,并渲染出目标地址对应的页面,从页面中获取页面标注区块,页面标注区块由用户在页面中的区域进行送审标记得到,基于页面标注区块得到源码区块标签,源码区块标签用于表征对相应元素指定送审的源码标识,对源码区块标签进行解析,得到相应元素对应的元素信息,基于元素信息,得到待审核内容,并对待审核内容进行审核操作。通过上述方案,从渲染出目标地址对应的页面中获取页面标注区块,页面标注区块由用户在页面中的区域进行送审标记得到,在解析源码区块标签和对待审核内容进行送审的过程中,用户可以指定元素信息进行送审或者不送审,提高了送审方式的灵活性。提高了送审方式的灵活性。提高了送审方式的灵活性。

【技术实现步骤摘要】
一种数据处理方法及系统


[0001]本申请涉及内容审核
,更具体地说,涉及一种数据处理方法及系统。

技术介绍

[0002]内容审核(Content Moderation)是基于图像、文本、音视频等检测技术,对接收到的待审数据(图片、文本、音频、视频、链接等)进行检测,并将检测后的待审数据进行内容审核,以满足上传要求,帮助客户降低业务违规风险。
[0003]目前,内容审核接收待审数据有两种方式:一是被动接收;二是主动爬取。主动爬取的方式是通过解析获取图片、文本、音频、视频、链接等元素的方式进行审核,但是该方式存在一些缺陷,比如不能人为选择一些元素进行送审,或者人为选择一些元素不进行送审,使得用户不能对送审元素进行指定,从而降低了送审方式的灵活性。

技术实现思路

[0004]有鉴于此,本申请公开了一种数据处理方法及系统,在解析源码区块标签和对待审核内容进行送审的过程中,用户可以指定元素信息进行送审或者不送审,提高了送审方式的灵活性。
[0005]为了实现上述目的,其公开的技术方案如下:
[0006]本申请第一方面公开了一种数据处理方法,所述方法包括:
[0007]获取目标地址,并渲染出所述目标地址对应的页面;所述目标地址由用户输入进行送审的URL地址中选取得到;
[0008]从所述页面中获取页面标注区块;所述页面标注区块由所述用户在所述页面中的区域进行送审标记得到;
[0009]基于所述页面标注区块,得到源码区块标签;所述源码区块标签用于表征对相应元素指定送审的源码标识;
[0010]对所述源码区块标签进行解析,得到所述相应元素对应的元素信息;
[0011]基于所述元素信息得到待审核内容,并对所述待审核内容进行审核操作。
[0012]优选的,所述获取目标地址,并渲染出所述目标地址对应的页面,包括:
[0013]获取原始URL地址;所述原始URL地址用于指示用户输入进行送审的URL地址;
[0014]通过预设可变动参数,对所述原始URL地址进行选取得到目标地址,并渲染出所述目标地址对应的页面;所述预设可变动参数用于定位所述目标地址对应的网络源码位置。
[0015]优选的,所述基于所述页面标注区块,得到源码区块标签,包括:
[0016]从所述页面标注区块中获取区域源码;
[0017]向所述区域源码添加用于指示送审的标签,得到源码区块标签。
[0018]优选的,所述对所述源码区块标签进行解析,得到所述相应元素对应的元素信息,包括:
[0019]将所述目标地址与预设URL地址进行预定匹配处理;
[0020]若所述目标地址与所述预设URL地址匹配,则获取所述源码区块标签的URL内容源码;
[0021]从所述URL内容源码中获取区块起始位置及区块终止位置之间对应的目标URL内容源码;
[0022]解析所述目标URL内容源码,得到所述相应元素对应的元素信息。
[0023]优选的,还包括:
[0024]若所述目标地址与所述预设URL地址不匹配,则结束解析流程。
[0025]优选的,还包括:
[0026]从所述页面标注区块中获取区域源码;
[0027]将所述区域源码进行删除标签操作。
[0028]本申请第二方面公开了一种数据处理系统,所述系统包括:
[0029]渲染单元,用于获取目标地址,并渲染出所述目标地址对应的页面;所述目标地址由用户输入进行送审的URL地址中选取得到;
[0030]第一获取单元,用于从所述页面中获取页面标注区块;所述页面标注区块由所述用户在所述页面中的区域进行送审标记得到;
[0031]第二获取单元,用于基于所述页面标注区块,得到源码区块标签;所述源码区块标签用于表征对相应元素指定送审的源码标识;
[0032]解析单元,用于对所述源码区块标签进行解析,得到所述相应元素对应的元素信息;
[0033]审核单元,用于基于所述元素信息得到待审核内容,并对所述待审核内容进行审核操作。
[0034]优选的,所述渲染单元,包括:
[0035]第一获取模块,用于获取原始地址;所述原始地址用于指示用户输入进行送审的URL地址;
[0036]渲染模块,用于通过预设可变动参数,对所述原始URL地址进行选取得到目标地址,并渲染出所述目标地址对应的页面;所述预设可变动参数用于定位所述目标地址对应的网络源码位置。
[0037]优选的,所述第二获取单元,包括:
[0038]第二获取模块,用于从所述页面标注区块中获取区域源码;
[0039]操作模块,用于向所述区域源码添加用于指示送审的标签,得到源码区块标签。
[0040]优选的,所述解析单元,包括:
[0041]匹配模块,用于将所述目标地址与预设URL地址进行预定匹配处理;
[0042]第三获取模块,用于若所述目标地址与所述预设URL地址匹配,则获取所述源码区块标签的URL内容源码;
[0043]第四获取模块,用于从所述URL内容源码中获取区块起始位置及区块终止位置之间对应的目标URL内容源码;
[0044]解析模块,用于解析所述目标URL内容源码,得到元素信息。
[0045]经由上述技术方案可知,本申请公开了一种数据处理方法及系统,获取目标地址,并渲染出目标地址对应的页面,目标地址由用户输入进行送审的URL地址中选取得到,从页
面中获取页面标注区块,页面标注区块由用户在页面中的区域进行送审标记得到,基于页面标注区块得到源码区块标签,源码区块标签用于表征对相应元素指定送审的源码标识,对源码区块标签进行解析,得到相应元素对应的元素信息,基于元素信息得到待审核内容,并对待审核内容进行审核操作。通过上述方案,从渲染出目标地址对应的页面中获取页面标注区块,页面标注区块由用户在页面中的区域进行送审标记得到,在解析源码区块标签和对待审核内容进行送审的过程中,用户可以指定元素信息进行送审或者不送审,提高了送审方式的灵活性。
附图说明
[0046]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0047]图1为本申请实施例公开的一种数据处理方法的流程示意图;
[0048]图2为本申请实施例公开的获取目标地址,并渲染出目标地址对应的页面的流程示意图;
[0049]图3为本申请实施例公开的基于页面标注区块,得到源码区块标签的流程示意图;
[0050]图4为本申请实施例公开的对源码区块标签进行解析,得到相应元素对应的元素信息的流程示意图;
[0051]图5为本申请实施例公开的一种数据处理系统的结构示意图。
具体实施方式...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取目标地址,并渲染出所述目标地址对应的页面;所述目标地址由用户输入进行送审的URL地址中选取得到;从所述页面中获取页面标注区块;所述页面标注区块由所述用户在所述页面中的区域进行送审标记得到;基于所述页面标注区块,得到源码区块标签;所述源码区块标签用于表征对相应元素指定送审的源码标识;对所述源码区块标签进行解析,得到所述相应元素对应的元素信息;基于所述元素信息得到待审核内容,并对所述待审核内容进行审核操作。2.根据权利要求1所述的方法,其特征在于,所述获取目标地址,并渲染出所述目标地址对应的页面,包括:获取原始URL地址;所述原始URL地址用于指示用户输入进行送审的URL地址;通过预设可变动参数,对所述原始URL地址进行选取得到目标地址,并渲染出所述目标地址对应的页面;所述预设可变动参数用于定位所述目标地址对应的网络源码位置。3.根据权利要求1所述的方法,其特征在于,所述基于所述页面标注区块,得到源码区块标签,包括:从所述页面标注区块中获取区域源码;向所述区域源码添加用于指示送审的标签,得到源码区块标签。4.根据权利要求1所述的方法,其特征在于,所述对所述源码区块标签进行解析,得到所述相应元素对应的元素信息,包括:将所述目标地址与预设URL地址进行预定匹配处理;若所述目标地址与所述预设URL地址匹配,则获取所述源码区块标签的URL内容源码;从所述URL内容源码中获取区块起始位置及区块终止位置之间对应的目标URL内容源码;解析所述目标URL内容源码,得到所述相应元素对应的元素信息。5.根据权利要求4所述的方法,其特征在于,还包括:若所述目标地址与所述预设URL地址不匹配,则结束解析流程。6.根据权利要求1所述的方法,其特征在于,还包括:...

【专利技术属性】
技术研发人员:黄金林锋李永全周骄黄勇常俊梁思杰
申请(专利权)人:成都中网易企秀科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1