The embodiments of the present disclosure provide a sensitive text determination method and device, which includes: determining whether at least one character in the target text belongs to the preset blacklist; matching the target text according to the preset whitelist when no character belongs to the preset blacklist, and counting the total length of the matched characters; and according to the total length of the matched characters. The degree and the length of the target text determine the matching parameters of the target text and the white list, and determine that the target text is non-sensitive when the matching parameters are greater than the preset threshold of the matching parameters. The matching parameters can be calculated according to the matching length and text length, and the matching parameters can be used to determine whether the text is sensitive, which can improve the accuracy of sensitive text recognition. It can also be used to determine whether the text is sensitive according to the white list and blacklist with less data, which can effectively improve the speed of recognition.
【技术实现步骤摘要】
一种敏感文本确定方法及装置
本公开的实施例涉及文本匹配
,尤其涉及一种敏感文本确定方法及装置。
技术介绍
商品的网络销售平台方便了人们的生活。为了保证平台的健康发展,降低运营风险,需要对商品信息中的敏感信息进行识别和过滤。现有技术中,相较于采用全文本匹配进行敏感信息识别,改进的敏感文本确定方案具有较好的匹配效率。其主要通过匹配算法识别文本中的敏感信息。例如,KMP算法采用字符串匹配,通过不断移动参考字符串,判断目标字符串中是否包含该参考字符串。当参考字符串和目标字符串中一片段相同时,确定该目标字符串包含该参考字符串,匹配成功;当参考字符串不和目标字符串中的任一片段相同时,确定该目标字符串不包含该参考字符串。可以看出,上述方案在确认是否为敏感文本时,若匹配成功则认为该文本为敏感文本,算法简单,导致准确度较低,此外逐个匹配导致识别速度较低。
技术实现思路
本公开实施例提供一种敏感文本确定方法及装置,有助于提高确定敏感文本的准确性。根据本公开实施例的第一方面,提供了一种敏感文本确定方法,所述方法包括:确定目标文本中是否存在至少一个字符属于预设黑名单;在不存在字符属于预 ...
【技术保护点】
1.一种敏感文本确定方法,其特征在于,所述方法包括:确定目标文本中是否存在至少一个字符属于预设黑名单;在不存在字符属于预设黑名单的情况下,根据预设白名单对所述目标文本进行匹配,并统计匹配的字符总长度;根据所述匹配的字符总长度和目标文本的长度确定目标文本与所述白名单的匹配参数;在所述匹配参数大于预设匹配参数阈值的情况下,确定所述目标文本为非敏感文本。
【技术特征摘要】
1.一种敏感文本确定方法,其特征在于,所述方法包括:确定目标文本中是否存在至少一个字符属于预设黑名单;在不存在字符属于预设黑名单的情况下,根据预设白名单对所述目标文本进行匹配,并统计匹配的字符总长度;根据所述匹配的字符总长度和目标文本的长度确定目标文本与所述白名单的匹配参数;在所述匹配参数大于预设匹配参数阈值的情况下,确定所述目标文本为非敏感文本。2.根据权利要求1所述的方法,其特征在于,所述目标文本包括主体信息和关联信息,所述白名单包括主体白名单和关联白名单,所述根据预设白名单对所述目标文本进行匹配,并统计匹配的字符总长度的步骤,包括:在所述主体信息不在所述主体白名单的情况下,匹配的字符总长度为0;在所述主体信息在所述主体白名单的情况下,根据所述关联白名单对所述关联信息进行匹配,得到匹配成功的关联信息;计算所述匹配成功的关联信息与主体信息的长度之和,得到匹配的字符总长度。3.根据权利要求1所述的方法,其特征在于,所述根据所述匹配的字符总长度和目标文本的长度确定目标文本与所述白名单的匹配参数的步骤,包括:计算所述匹配的字符总长度与所述目标文本的长度的比值,得到匹配参数。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:在所述匹配参数小于或等于预设匹配参数阈值的情况下,采用预设敏感数据库对所述目标文本进行匹配,得到匹配成功的敏感词;根据所述匹配成功的敏感词总长度确定所述目标文本的敏感参数;在所述敏感参数大于预设敏感参数阈值的情况下,确定所述目标文本为敏感文本。5.根据权利要求1所述的方法,其特征在于,在所述采用预设敏感数据库对所述目标文本进行匹配,得到匹配成功的敏感词的步骤之前,还包括:采用预先生成的拼音概率矩阵对所述目标文本中的拼音字符进行分词。6.根据权...
【专利技术属性】
技术研发人员:袁喆,张晖,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。