网络发布数据处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:23212828 阅读:28 留言:0更新日期:2020-01-31 21:53
本申请涉及大数据处理领域,尤其是一种网络发布数据处理方法、装置、计算机设备和存储介质。方法包括:接收终端发送的网络发布数据,网络发布数据携带有数据类型标识;选取与数据类型标识对应的网络数据审核模型;对网络发布数据分别进行分词处理得到对应的分词序列,将分词序列分别输入至网络数据审核模型中得到对应的分词审核结果,分词处理包括词语分词处理和字符分词处理;将分词审核结果输入至权重分配模型中得到与每一分词审核结果对应的分词权重;根据分词审核结果和分词权重得到与网络发布数据对应的目标审核结果;根据目标审核结果判断网络发布数据是否需要删除,若需要,则删除网络发布数据。采用本方法能够提高识别处理准确性。

Data processing methods, devices, computer equipment and storage media for network publishing

【技术实现步骤摘要】
网络发布数据处理方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种网络发布数据处理方法、装置、计算机设备和存储介质。
技术介绍
随着互联网的发展,用户可以通过互联网获取所需信息,因此出现越来越多可以获取信息的平台,往往获取信息时还可以在平台上发表相应的评论。然而,目前服务器接收到各个终端发送的网络发布数据时,通过预先存储的敏感词匹配识别不良评论,这样当评论数据中存在广告、灌水、污秽、辱骂、政治敏感等不符合社区主义价值观及特定场景和要求的内容的不良评论时,则会识别出该些网络数据,并删除。但是这样通过敏感词匹配来识别不良评论时,当预先没有存储该敏感词时,则不会识别出来,从而导致不良评论的网络发布数据识别效果较差。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够准确地对网络发布数据进行识别处理的网络发布数据处理方法、装置、计算机设备和存储介质。一种网络发布数据处理方法,所述方法包括:接收终端发送的网络发布数据,所述网络发布数据携带有数据类型标识;>选取与所述数据类型本文档来自技高网...

【技术保护点】
1.一种网络发布数据处理方法,所述方法包括:/n接收终端发送的网络发布数据,所述网络发布数据携带有数据类型标识;/n选取与所述数据类型标识对应的网络数据审核模型;/n对所述网络发布数据分别进行分词处理得到对应的分词序列,将所述分词序列分别输入至所述网络数据审核模型中得到对应的分词审核结果,所述分词处理包括词语分词处理和字符分词处理;/n将所述分词审核结果输入至权重分配模型中得到与每一分词审核结果对应的分词权重;/n根据所述分词审核结果和所述分词权重得到与所述网络发布数据对应的目标审核结果;/n根据所述目标审核结果判断所述网络发布数据是否需要删除,若需要,则删除所述网络发布数据。/n

【技术特征摘要】
1.一种网络发布数据处理方法,所述方法包括:
接收终端发送的网络发布数据,所述网络发布数据携带有数据类型标识;
选取与所述数据类型标识对应的网络数据审核模型;
对所述网络发布数据分别进行分词处理得到对应的分词序列,将所述分词序列分别输入至所述网络数据审核模型中得到对应的分词审核结果,所述分词处理包括词语分词处理和字符分词处理;
将所述分词审核结果输入至权重分配模型中得到与每一分词审核结果对应的分词权重;
根据所述分词审核结果和所述分词权重得到与所述网络发布数据对应的目标审核结果;
根据所述目标审核结果判断所述网络发布数据是否需要删除,若需要,则删除所述网络发布数据。


2.根据权利要求1所述的方法,其特征在于,所述对所述网络发布数据分别进行分词处理得到对应的分词序列,将所述分词序列分别输入至所述网络数据审核模型中得到对应的分词审核结果,包括:
对所述网络发布数据分别进行分词处理得到对应的分词序列,并统计每一所述分词序列中的第一分词数量;
当存在所述分词序列对应的所述第一分词数量未达到预设值时,则将对应的所述分词序列转化为初始分词向量;
获取与所述分词序列对应的预先存储的补充元素,通过所述补充元素对所述初始分词向量进行补充得到目标向量;
将所述目标向量输入至所述网络数据审核模型中得到分词审核结果。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当存在所述分词序列对应的所述第一分词数量大于所述预设值时,则比较所述分词序列中的分词得到重复分词,并删除所述重复分词;
统计删除重复分词之后的分词序列中的第二分词数量;
当所述第二分词数量仍大于所述预设值时,则计算所述第二分词数量与所述预设值的差值;
从删除重复分词之后的分词序列中继续删除与所述差值对应数量的分词。


4.根据权利要求1至3任意一项所述的方法,其特征在于,所述选取与所述数据类型标识对应的网络数据审核模型之前,还包括:
查询所述网络发布数据是否携带有空白数据标识;
当所述网络发布数据未携带有空白数据标识时,则将所述网络发布数据与预先建立的敏感数据库中的标准敏感数据进行匹配;
当未匹配成功时,则根据预设提取逻辑提取所述网络发布数据中的特殊字符,并删除所述特殊字符。


5.根据权利要求1至3任意一项所述的方法,其特征在于,所述网络数据审核模型的生成方式包括:
获取历史数据以及所述历史数据对应的历史审核结果;
将所述历史数据进行分词处理得到对应的历史序列,并对每一所述历史序列进行处理得到对应的历史向量;
...

【专利技术属性】
技术研发人员:李伟
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1