信息检测方法、电子设备及计算机存储介质技术

技术编号:27818071 阅读:21 留言:0更新日期:2021-03-30 10:22
本申请涉及通信技术领域,提供一种信息检测方法、电子设备及计算机存储介质,所述信息检测方法包括:获取待检测信息中表情符号对应的文字信息;根据所述文字信息对应的中文描述,替换所述待检测信息中的所述表情符号,得到检测信息;获取所述检测信息对应的拼音,得到拼音数据;将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词;当所述拼音数据中不存在敏感词时,获取所述拼音数据对应的拼音首字母;根据所述拼音首字母生成缩写数据;将所述缩写数据与所述敏感词数据库进行数据匹配,判断所述缩写数据中是否存在敏感词,根据判断结果,处理所述待检测信息。本申请提供的方法提高了敏感信息的检测效率。的检测效率。的检测效率。

【技术实现步骤摘要】
信息检测方法、电子设备及计算机存储介质


[0001]本申请涉及通信
,尤其涉及一种信息检测方法、电子设备及计算机存储介质。

技术介绍

[0002]表情符号就是一种独特的网络语言,用来生动呈现和描摹日常面对面交际中的非言语信息,携带语义信息,如emoji表情。由于emoji的种类丰富,通过emoji与文字的组合可以表达一定的语义信息,增加了沟通表达的趣味性,越来越多的人使用emoji来代替语言文字本身。部分网络用户利用emoji本身携带语义信息的特性,文字将emoji代替部分语言文字,从而隐藏一些敏感信息,这些敏感信息可能涉及恐怖、暴力、色情、赌博、负面社会舆论等。目前,网络平台通常使用敏感词库的匹配方式对用户发送的内容进行敏感信息检测,由于emoji本身是符合规定的,所以使用emoji代替部分文字发送敏感信息的情况就难以被检测出。如果依靠人工进行敏感信息检测,又需要消耗大量人力成本且检测耗时长,导致检测的效率较低。

技术实现思路

[0003]有鉴于此,本申请的主要目的在于提供一种信息检测方法、电子设备及计算机存储介质,旨在解决如何提高敏感信息检测的效率。
[0004]本申请的第一方面提供一种信息检测方法,所述信息检测方法包括:获取待检测信息中表情符号对应的文字信息;根据所述文字信息对应的中文描述,替换所述待检测信息中的所述表情符号,得到检测信息;获取所述检测信息对应的拼音,得到拼音数据;将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词;当所述拼音数据中不存在敏感词时,获取所述拼音数据对应的拼音首字母;根据所述拼音首字母生成缩写数据;将所述缩写数据与所述敏感词数据库进行数据匹配,判断所述缩写数据中是否存在敏感词;根据判断结果,处理所述待检测信息。
[0005]根据本申请的一个可选的实施例,所述获取所述检测信息对应的拼音,得到拼音数据包括:检测所述检测信息中是否存在预设字符;当所述检测信息中存在所述预设字符时,对所述检测信息中的所述预设字符进行剔除处理;获取剔除处理后的检测信息对应的拼音,得到拼音数据。
[0006]根据本申请的一个可选的实施例,所述将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词包括:按照预设的拆分规则对所述拼音数据进行拆分,得到拼音组合;将所述拼音组合与预设的敏感词数据库进行数据匹配,判断所述拼音组合中是否存在敏感词。
[0007]根据本申请的一个可选的实施例,将所述拼音组合与预设的敏感词数据库进行数据匹配,判断所述拼音组合中是否存在敏感词包括:判断所述拼音组合中是否有拼音与所述敏感词数据库中敏感词的拼音相同;当所述拼音组合中有拼音与所述敏感词数据库中敏感词的拼音相同,确定所述拼音组合中存在敏感词;当所述拼音组合中没有拼音与所述敏感词数据库中敏感词的拼音相同,计算所述拼音组合中的拼音与所述敏感词数据库中敏感词的拼音的相似度;当所述相似度大于预设相似阈值时,确定所述拼音组合中存在敏感词;当所述相似度小于或等于所述预设相似阈值时,确定所述拼音组合中不存在敏感词。
[0008]根据本申请的一个可选的实施例,所述将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词包括:将所述拼音数据中首字符拼音与预设的敏感词数据库中的索引拼音节点进行比较,判断是否存在与所述首字符拼音相同的索引拼音节点;当存在与所述首字符拼音相同的索引拼音节点时,将所述检测信息的首字符拼音之后的剩余字符拼音按照顺序依次与所述索引拼音节点对应的敏感拼音节点进行比较;计算所述剩余字符拼音与所述敏感拼音节点的匹配度,当所述匹配度大于匹配度阈值时,判断所述拼音数据中存在敏感词;当不存在与所述首字符拼音相同的索引拼音节点时,将所述检测信息的首字符拼音之后的剩余字符拼音按照顺序依次与所述敏感词数据库中的索引拼音节点进行比较,判断是否存在与所述剩余字符拼音相同的索引拼音节点;当存在与所述剩余字符拼音相同的索引拼音节点时,将所述剩余字符拼音之后的其它字符拼音按照顺序依次与所述索引拼音节点对应的敏感拼音节点进行比较;计算所述其它字符拼音与所述敏感拼音节点的匹配度,当所述匹配度大于匹配度阈值时,判断所述拼音数据中存在敏感词。
[0009]根据本申请的一个可选的实施例,所述将所述缩写数据与预设的敏感词数据库进行数据匹配,判断所述缩写数据中是否存在敏感词包括:按照预设的拆分规则对所述缩写数据进行拆分,得到缩写组合;将所述缩写组合与预设的敏感词数据库进行数据匹配,判断所述缩写组合中是否存在敏感词。
[0010]根据本申请的一个可选的实施例,所述方法还包括:当所述缩写数据中不存在敏感词时,获取所述待检测信息中除所述表情符号外的信息对应的拼音,得到第一数据;确定所述表情符号对应的英文描述,并根据所述英文描述得到第二数据;
将所述第一数据和所述第二数据进行拼接,得到混合数据;将所述混合数据与所述预设敏感词数据库进行数据匹配,判断所述混合数据中是否存在敏感词。
[0011]根据本申请的一个可选的实施例,所述敏感词数据库的生成过程包括:获取敏感词和所述敏感词对应的描述信息,所述描述信息包括拼音信息、缩写信息和/或中英混合信息;生成所述敏感词和所述描述信息的信息映射表,所述信息映射表包括所述敏感词和所述描述信息之间的映射关系;根据所述敏感词、所述描述信息和所述信息映射表,生成敏感词数据库。
[0012]本申请的第二方面提供一种电子设备,所述电子设备包括:存储器,用于存储至少一个指令;处理器,用于执行所述至少一个指令时实现如上所述的信息检测方法。
[0013]本申请的第三方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被处理器执行时实现如上所述的信息检测方法。
[0014]由以上技术方案可以看出,本申请通过获取待检测信息中表情符号对应的文字信息,并根据所述文字信息对应的中文描述,替换所述待检测信息中的所述表情符号,得到检测信息,接着获取所述检测信息对应的拼音,得到拼音数据,并将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词;当所述拼音数据中不存在敏感词时,获取所述拼音数据对应的拼音首字母;根据所述拼音首字母生成缩写数据;将所述缩写数据与所述敏感词数据库进行数据匹配,判断所述缩写数据中是否存在敏感词,并根据判断结果,处理所述待检测信息,通过将待检测信息中表情符号转换为中文,并将转换后的待检测信息进行拼音获取处理得到拼音数据,避免因表情符号影响敏感信息检测的情况发生,提高了对用户利用表情符号的语义信息传递敏感信息等事件的检测准确率,提高了敏感信息检测的效率。同时在所述拼音数据不存在敏感词时,获取所述拼音数据对应的拼音首字母生成缩写数据,并判断所述缩写数据中是否存在敏感词,进一步提高了敏感信息检测的准确率。
附图说明
[0015]图1为本申请实施例的一种信息检测方法的场景示意图;图2为本申请实施例的一种信息检测方法的示意流本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息检测方法,其特征在于,所述信息检测方法包括:获取待检测信息中表情符号对应的文字信息;根据所述文字信息对应的中文描述,替换所述待检测信息中的所述表情符号,得到检测信息;获取所述检测信息对应的拼音,得到拼音数据;将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词;当所述拼音数据中不存在敏感词时,获取所述拼音数据对应的拼音首字母;根据所述拼音首字母生成缩写数据;将所述缩写数据与所述敏感词数据库进行数据匹配,判断所述缩写数据中是否存在敏感词;根据判断结果,处理所述待检测信息。2.根据权利要求1所述的信息检测方法,其特征在于,所述获取所述检测信息对应的拼音,得到拼音数据包括:检测所述检测信息中是否存在预设字符;当所述检测信息中存在所述预设字符时,对所述检测信息中的所述预设字符进行剔除处理;获取剔除处理后的检测信息对应的拼音,得到拼音数据。3.根据权利要求1所述的信息检测方法,其特征在于,所述将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词包括:按照预设的拆分规则对所述拼音数据进行拆分,得到拼音组合;将所述拼音组合与预设的敏感词数据库进行数据匹配,判断所述拼音组合中是否存在敏感词。4.根据权利要求3所述的信息检测方法,其特征在于,将所述拼音组合与预设的敏感词数据库进行数据匹配,判断所述拼音组合中是否存在敏感词包括:判断所述拼音组合中是否有拼音与所述敏感词数据库中敏感词的拼音相同;当所述拼音组合中有拼音与所述敏感词数据库中敏感词的拼音相同,确定所述拼音组合中存在敏感词;当所述拼音组合中没有拼音与所述敏感词数据库中敏感词的拼音相同,计算所述拼音组合中的拼音与所述敏感词数据库中敏感词的拼音的相似度;当所述相似度大于预设相似阈值时,确定所述拼音组合中存在敏感词;当所述相似度小于或等于所述预设相似阈值时,确定所述拼音组合中不存在敏感词。5.根据权利要求1所述的信息检测方法,其特征在于,所述将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词包括:将所述拼音数据中首字符拼音与预设的敏感词数据库中的索引拼音节点进行比较,判断是否存在与所述首字符拼音相同的索引拼音节点;当存在与所述首字符拼音相同的索引拼音节点时,将所述检测信息的首字符拼音之后的剩余字符拼音按照顺序...

【专利技术属性】
技术研发人员:杨超周博龙何竞超
申请(专利权)人:深圳市优讯通信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1