【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质
[0001]本公开涉及计算机
,尤其涉及深度学习、大数据处理等人工智能
,具体涉及一种数据处理方法、装置、电子设备及存储介质。
技术介绍
[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术,以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]网页主要包括:静态数据和动态数据,相关技术中,通常是针对网页中的静态数据和动态数据执行相应的数据处理任务。
技术实现思路
[0004]本公开提供了一种数据处理方法、装置、电子设备、存储介质以及计算机程序产品。
[0005]根据本公开的第一方面,提供了一种数据处理方法,包括:获取网页的待处理数据;对所述待处理数据进行采样处理,以得到采样数据;从所述采样数据之中识别出与预设分隔符对应的数据内容,并采用所述预设分隔符对所述数据内容进行标记,以得到多个标记数据内容;以及对所述多个标记数据内容进行融合处理,以得到目标数据。
[0006]根据本公开的第二方面,提供了一种数据处理装置,包括:获取模块,用于获取网页的待处理数据;处理模块,用于对所述待处理数据进行采样处理,以得到采样数据;识别模块,用于从所述采样数据之中识别出与预设分 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,包括:获取网页的待处理数据;对所述待处理数据进行采样处理,以得到采样数据;从所述采样数据之中识别出与预设分隔符对应的数据内容,并采用所述预设分隔符对所述数据内容进行标记,以得到多个标记数据内容;以及对所述多个标记数据内容进行融合处理,以得到目标数据。2.根据权利要求1所述的方法,其中,所述获取网页的待处理数据,包括:接收加载请求消息,所述加载请求消息,用于在所述网页之中加载对应的动态信息;根据所述加载请求消息获取所述对应的动态信息,并从所述动态信息之中解析得到所述待处理数据。3.根据权利要求1所述的方法,其中,所述对所述待处理数据进行采样处理,以得到采样数据,包括:确定与所述待处理数据对应的加密状态;确定与所述加密状态对应的目标采样方式;根据所述目标采样方式对所述待处理数据进行采样处理,以得到采样数据。4.根据权利要求3所述的方法,其中,所述根据所述目标采样方式对所述待处理数据进行采样处理,以得到采样数据,包括:如果所述加密状态指示:所述待处理数据未加密,则对所述待处理数据进行切词处理,得到多个初始词;确定与所述多个初始词分别对应的多个初始词向量表示,并将所述多个初始词向量表示作为所述采样数据。5.根据权利要求3所述的方法,其中,所述根据所述目标采样方式对所述待处理数据进行采样处理,以得到采样数据,包括:如果所述加密状态指示:所述待处理数据加密,则确定与所述待处理数据对应的数据量;如果所述数据量小于或者等于数据量阈值,则对所述待处理数据进行解密处理,以得到解密数据;对所述解密数据进行切词处理,以得到多个解密词;确定与所述多个解密词分别对应的多个解密词向量表示,并将所述多个解密词向量表示作为所述采样数据。6.根据权利要求5所述的方法,还包括:如果所述数据量大于所述数据量阈值,则确定与所述待处理数据对应的加密算法类型;确定与所述加密算法类型对应的目标字符数,其中,所述目标字符数指示:与所述加密算法类型对应的数据单元所包括的字符数;参考所述目标字符数对所述待处理数据进行切分处理,以得到多个切分数据段,并将所述多个切分数据段作为所述采样数据。7.根据权利要求1所述的方法,其中,所述对所述多个标记数据内容进行融合处理,以得到目标数据,包括:
对所述多个标记数据内容进行拼接处理,以得到拼接数据;根据与所述多个标记数据内容分别对应的多个预设分隔符,生成与所述多个标记数据内容分别对应的多种数据特征,将所述拼接数据和所述多种数据特征共同作为所述目标数据。8.一种数据处理装置,包括:获取模块,用于获取网页的待处理数据;处理模块,用于对所述待处理数据进行采样处理,以得到采样数据;识别模块,用于从所述采样数据之中识别出与预设分隔符对应的数据内容,并采用所述预设分隔符对所述数据内容进行标记,以得到多个标记数据内容;以及融合模块,用于...
【专利技术属性】
技术研发人员:刘伟,陈由之,张博,林赛群,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。