【技术实现步骤摘要】
基于NLP技术的敏感词屏蔽方法和装置
本专利技术属于词语屏蔽过滤
,具体涉及一种基于NLP技术的敏感词屏蔽方法和装置。
技术介绍
随着互联网的迅猛发展,人们的衣食住行越来越离不开网络,而随着网络的普及,我们会在互联网上看到一些不合适的言论,例如对他人的人身攻击,对政治的过激言论。这些不文明用语或者敏感词汇的传播会产生不良的社会影响或者造成较差的用户体验。现有的敏感词屏蔽方法大多是直接判断用户的言论中是否有某个词在敏感词库中,然后直接将这些词替换成*号,有时用户只是恰巧不小心输入了敏感词库中的字,可能语境上完全不是不当言论,但是却被屏蔽了,给用户造成了不好的体验。并且由于敏感词库是预先设定好的,因此用户可以通过同音字或者谐音等方式绕过敏感词库,使得屏蔽的效果不佳。因此,如何对用户所输入的语句进行分析以确定是否需要屏蔽,进而提高屏蔽效果和改善用户体验成为亟待解决的技术问题。
技术实现思路
本专利技术要解决的技术问题在于如何对用户所输入的语句进行分析以确定是否需要屏蔽,进而提高屏蔽效果和改善用户体验。为此,根据第一方面,本专利技术实施例公开了一种基于NLP技术的敏感词 ...
【技术保护点】
1.一种基于NLP技术的敏感词屏蔽方法,其特征在于,包括:获取用于表征用户发送的信息内容的文本信息;基于NLP技术对所述文本信息进行语义分析并获取分析结果;判断所述分析结果是否合法;如果所述分析结果不合法,则输出用于表征对所述文本信息进行屏蔽的屏蔽信号。
【技术特征摘要】
1.一种基于NLP技术的敏感词屏蔽方法,其特征在于,包括:获取用于表征用户发送的信息内容的文本信息;基于NLP技术对所述文本信息进行语义分析并获取分析结果;判断所述分析结果是否合法;如果所述分析结果不合法,则输出用于表征对所述文本信息进行屏蔽的屏蔽信号。2.如权利要求1所述的基于NLP技术的敏感词屏蔽方法,其特征在于,在所述获取用于表征用户发送的信息内容的文本信息与所述基于NLP技术对所述文本信息进行语义分析并获取分析结果之间,还包括:对所述文本信息进行相似分析,所述相似分析是指对所述文本信息进行同音和/或谐音的比对分析。3.如权利要求2所述的基于NLP技术的敏感词屏蔽方法,其特征在于,所述对所述文本信息进行相似分析,所述相似分析是指对所述文本信息进行同音和/或谐音的比对分析包括:将所述文本信息转化为拼音信息;将所述拼音信息与预设敏感词库进行匹配以获取待分析拼音信息,所述待分析拼音信息为所述拼音信息中与所述预设敏感词库匹配一致的拼音信息;将所述匹配成功的拼音信息按预设规则转化为待分析文本信息进行语义分析。4.如权利要求1-3任一项所述的基于NLP技术的敏感词屏蔽方法,其特征在于,所述基于NLP技术对所述文本信息进行语义分析并获取分析结果包括:通过对预设敏感词库及历史语料进行训练,生成敏感词词向量库;分析所述文本信息中各个字段的组合概率以获取词向量;将所述词向量与所述敏感词词向量库进行比对以获取待分析敏感词向量,所述待分析敏感词向量为所述词向量中与所述敏感词词向量库匹配一致的词向量;根据所述文本信息中的上下文信息判断所述待分析敏感词向量的真实语义,并基于真实...
【专利技术属性】
技术研发人员:张胜,鲁斌,孔东泉,
申请(专利权)人:广州灵聚信息科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。