【技术实现步骤摘要】
基于深度学习的敏感信息查询方法
本专利技术属于信息查询
,特别涉及一种基于深度学习的敏感信息查询方法。
技术介绍
在公众平台发布信息时,通常需要进行敏感词检查,对于违反法律或者公序良俗的内容不予公开。最初是采用人工审核,但是随着越来越多的人使用互联网发表信息,人工审核速度非常慢,而且容易遗漏,效果不佳;随着自然语言查询技术的发展,人们开始采用各种查询方案进行自动筛选,查询要发布的信息中是否包含文本库中的内容,但是这种查询方式比较机械,容易出现误操作,例如,在语句“ABCDEFG”中,AB是一个词组,CD是一个词组,BC是敏感词,那么现有的查询方式就会判定该句中存在敏感词,导致误判。深度学习的概念由Hinton等人于2006年提出,它是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像、声音和文本。深度学习是无监督学习的一种,其概念源于人工神经网络的研究,含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。基于深信度网(DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。
技术实现思路
本专利技术的目的,在于提供一种基于深度学习的敏感信息查询方法,其可提高对待查询文本的分词灵活性, ...
【技术保护点】
1.一种基于深度学习的敏感信息查询方法,其特征在于包括如下步骤:/n步骤1,对待查询文本进行分词处理,然后转换为特征向量;/n步骤2,将步骤1得到的特征向量输入神经网络模型中,输出与敏感词词库的相似度,若该相似度高于阈值,则判定该待查询文本中包含敏感词,并输出相应的敏感词结果。/n
【技术特征摘要】
1.一种基于深度学习的敏感信息查询方法,其特征在于包括如下步骤:
步骤1,对待查询文本进行分词处理,然后转换为特征向量;
步骤2,将步骤1得到的特征向量输入神经网络模型中,输出与敏感词词库的相似度,若该相似度高于阈值,则判定该待查询文本中包含敏感词,并输出相应的敏感词结果。
2.如权利要求1所述的基于深度学习的敏感信息查询方法,其特征在于:所述步骤1中,还对分词处理后的结果进行人工抽查复核。
3.如权利要求1所述的基于深度学习的敏感信息查询方法,其特征在于:所述步骤1中,根据分词规则对待查询文本进行分词处理,该分词规则为在训练过程中满...
【专利技术属性】
技术研发人员:綦大勇,梁媛媛,王琦,朱霖,邓晓露,陈华,
申请(专利权)人:盐城数智科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。