【技术实现步骤摘要】
用于处理数据的方法、装置、设备以及存储介质
本申请涉及数据处理领域,具体涉及数据处理、深度学习、云计算领域,尤其涉及用于处理数据的方法、装置、设备以及存储介质。
技术介绍
随着移动互联网和移动通信网的快速发展,全球已经进入信息化的时代。通信工具是获取和传播信息的重要方式,但由于其便利性与匿名性,犯罪分子常利用其进行通信信息诈骗。现有通信信息诈骗识别方法基本依赖于诈骗号码库,但是识别效果有限,无法应对所有的问题。
技术实现思路
本公开提供了一种用于处理数据的方法、装置、设备以及存储介质。根据本公开的一方面,提供了一种用于处理数据的方法,包括:获取目标文本;从目标文本中,确定出与预设的标签集合中的各标签对应的各子文本;确定各子文本的向量;基于所确定的向量,确定目标文本是否为异常文本;响应于确定目标文本不为异常文本,转发目标文本。根据本公开的另一方面,提供了一种用于处理数据的装置,包括:获取单元,被配置成获取目标文本。子文本确定单元,从目标文本中,确定出与预设的标签集合中的各标签对应的各 ...
【技术保护点】
1.一种用于处理数据的方法,包括:/n获取目标文本;/n从所述目标文本中,确定出与预设的标签集合中的各标签对应的各子文本;/n确定各子文本的向量;/n基于所确定的向量,确定所述目标文本是否为异常文本;/n响应于确定所述目标文本不为异常文本,转发所述目标文本。/n
【技术特征摘要】
1.一种用于处理数据的方法,包括:
获取目标文本;
从所述目标文本中,确定出与预设的标签集合中的各标签对应的各子文本;
确定各子文本的向量;
基于所确定的向量,确定所述目标文本是否为异常文本;
响应于确定所述目标文本不为异常文本,转发所述目标文本。
2.根据权利要求1所述的方法,其中,所述从所述目标文本中,确定出与预设的标签集合中的各标签对应的各子文本,包括:
确定所述目标文本中的子文本;
计算各所述子文本与预设的标签集合中的各标签的对应概率;
根据所述对应概率,确定与预设的标签集合中的各标签对应的各子文本。
3.根据权利要求1所述的方法,其中,所述基于所确定的向量,确定所述目标文本是否为异常文本,包括:
根据所述所确定的向量和预训练的转换模型,确定所述所确定的向量对应的融合向量,其中,所述预训练的转换模型用于表征多个向量与融合向量之间的对应关系;
基于所述融合向量,确定所述目标文本是否为异常文本。
4.根据权利要求3所述的方法,其中,所述基于所述融合向量,确定所述目标文本是否为异常文本,包括:
根据所述融合向量和预训练的计算模型,确定所述融合向量对应的分数,其中,所述预训练的计算模型用于表征融合向量与分数之间的对应关系;
基于所述分数和所述融合向量,确定所述目标文本是否为异常文本。
5.根据权利要求4所述的方法,其中,所述方法还包括:
获取历史异常文本以及与所述历史异常文本对应的历史融合向量。
6.根据权利要求5所述的方法,其中,所述基于所述分数和所述融合向量,确定所述目标文本是否为异常文本,包括:
确定所述融合向量与所述历史融合向量的相似度;
基于所述分数和所述相似度,确定所述目标文本是否为异常文本。
7.根据权利要求1~6中任一项所述的方法,其中,所述方法还包括:
根据所述目标文本和预训练的分类模型,确定所述目标文本对应的分类标识,其中,所述预训练的分类模型用于表征文本和分类标识的对应关系;
基于所述分类标识,确定所述目标文本是否为异常文本。
8.根据权利要求7所述的方法,其中,所述基于所确定的向量,确定所述目标文本是否为异常文本,包括:
基于所述所确定的向量和所述分类标识,确定所述目标文本是否为异常文本。
9.一种用于处理数据的装置,包括:
获取单元,被配置成获取目标文本;
子文本确定单元,被配置成从所述目标文本中,确定出与预设的标签集合中的各标签对应的各子文本;
向量确定单元,被配置成确定各子文本的向量;
异常文本确定单元,被配...
【专利技术属性】
技术研发人员:冯博豪,庞敏辉,谢国斌,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。