【技术实现步骤摘要】
一种数据处理方法、装置及设备
[0001]本申请涉及计算机
,尤其涉及一种数据处理方法、装置及设备。
技术介绍
[0002]随着互联网技术的快速发展,互联网上的信息内容急剧增多,然而,在这些信息中可能携带着一些违法违规的不良信息,包括极端言论、赌博、欺诈等内容,这些内容严重影响到互联网的信息安全。
[0003]目前,针对文本类的不良信息,现有的识别方法通常为通过预先设置好的敏感词,对获取到的文本信息进行匹配识别,并将匹配到的词语作为该文本信息的敏感词。然而,上述设置的敏感词中的很多敏感词在某些语境下可能并不能做为敏感词,例如,针对敏感词“黄色”来说,它在特殊的语境中所表达的语义会被作为敏感内容,而它在如“一朵黄色的小花”等语境中所表达的语义则应为非敏感内容,而不应作为敏感词输出。因此,通过上述方式对敏感词进行检测可能存在识别准确率低、误报率高等问题。
技术实现思路
[0004]本说明书实施例的目的是提供一种能够有效提高敏感词识别准确率的技术问题。
[0005]为了解决上述技术问题,本专利 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取待识别的目标文本;基于第一敏感词集合对所述目标文本进行敏感词筛选,得到所述目标文本中包含的第一敏感词,所述第一敏感词集合中所包含的敏感词的敏感程度低于第一预设阈值;若所述第一敏感词在预设语境下的语义唯一,则确定所述第一敏感词为所述目标文本中的目标敏感词;若所述第一敏感词在预设语境下的语义不唯一,则基于所述目标文本、所述第一敏感词对应的第一语义特征和所述第一敏感词对应的第二语义特征,确定所述第一敏感词是否为所述目标文本中的目标敏感词。2.根据权利要求1所述的方法,其特征在于,所述第一敏感词集合包括名词词性对应的敏感词子集合、动词词性对应的敏感词子集合和形容词词性对应的敏感词子集合中的一种或多种;所述若所述第一敏感词在预设语境下的语义唯一,则确定所述第一敏感词为所述目标文本中的目标敏感词,包括:若所述第一敏感词在预设语境下的语义唯一,则获取所述第一敏感词在所述目标文本中的目标词性;基于所述目标词性,确定所述第一敏感词为所述目标词性对应的敏感词子集合中的目标敏感词。3.根据权利要求1所述的方法,其特征在于,所述第一敏感词集合包括所述敏感词对应的第一语义特征和第二语义特征;所述若所述第一敏感词在预设语境下的语义不唯一,则基于所述目标文本、所述第一敏感词对应的第一语义特征和所述第一敏感词对应的第二语义特征,确定所述第一敏感词是否为所述目标文本中的目标敏感词,包括:基于所述第一敏感词,从所述第一敏感词集合中获取所述第一敏感词对应的第一语义特征和所述第一敏感词对应的第二语义特征;基于所述目标文本,确定所述第一敏感词在所述目标文本中的第三语义特征;基于所述第三语义特征、所述第一语义特征以及所述第二语义特征,确定所述第一敏感词是否为所述目标文本中的目标敏感词。4.根据权利要求3所述的方法,其特征在于,所述基于所述第三语义特征、所述第一语义特征以及所述第二语义特征,确定所述第一敏感词是否为所述目标文本中的目标敏感词,包括:基于所述第三语义特征、所述第一语义特征以及所述第二语义特征,确定所述第三语义特征与所述第一语义特征之间的第一相似度,以及所述第三语义特征与所述第二语义特征之间的第二相似度;基于所述第一相似度和所述第二相似度,确定所述第一敏感词是否为所述目标文本中的目标敏感词。5.根据权利要求2中任一项所述的方法,其特征在于,所述方法还包括:将所述目标文本中除与所述第一敏感词集合中相同的敏感词之外的文本信息输入到第一模型中,得到所述目标文本中的目标敏感词,所述第一模型是基于多个所述敏感程度
高于所述第一预设阈值的敏感词训练得到。6.根据权利要求5所述的方法,其特征在于,在所述获取待识别的目标文本之前,所述方法还包括:将预设样本输入至第一模型中,输出所述预设样本中包含的多个敏感词;基于所述预设样本中包含的多个敏感词,确定所述预设样本中所包含的多个敏感词的敏感程度,所述敏感程度用于评价所述预设样本中包含的多个敏感词中的每个敏感词的识别准确率;基于所述预设样本中所包含的多个敏感词的敏感程度,确定所述第一敏感词集合,以及用于对所述第一模型进行模型训练的第二敏感词集合。...
【专利技术属性】
技术研发人员:李长林,权佳成,曹磊,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。