【技术实现步骤摘要】
一种基于智能语义感知的预警信息合法性检测方法及检测系统
本专利技术涉及信息
,具体来说是一种基于智能语义感知的预警信息合法性检测方法及检测系统。
技术介绍
鉴于公共安全与国家安全的现实需要,目前从国家至各省市都已建立突发事件预警发布平台,将气象、国土等突发事件以文本形式对公众进行推送,在推送前通常需要利用合法性检测技术对预警信息进行过滤,预防可能出现的错误、恐怖等非法字符。目前已有技术一般是依赖于黑名单过滤算法,即首先利用人工收集已知的非法字符构建黑名单,随后将每一条待发布预警信息与黑名单中的每一个字符进行匹配,如匹配成功则认为待发布预警信息文本存在非法字词。上述技术存在以下两个缺点:(1)利用人工进行黑名单的构建将耗费大量人力物力与财力;(2)只能对事先录入的非法字符进行过滤和拦截,对未定义或事先无法预料的词语,比如“僵尸”,则无法进行有效检测与拦截。
技术实现思路
本专利技术要解决的技术问题是如何提高预警效率的同时节约成本。本专利技术通过以下技术方案来解决上述技术问题:一种基于智能语义感知的预警信息合法性检测方法,包括:步骤S1:基于深度学习的垂直领域预警文 ...
【技术保护点】
1.一种基于智能语义感知的预警信息合法性检测方法,其特征在于:包括:步骤S1:基于深度学习的垂直领域预警文本多标准分词算法:利用公开数据集与垂直领域数据集,设计基于序列深度学习的多标准分词算法;步骤S2:基于人机耦合形式的白名单构建与实时更新方法:以已有合法预警信息库为数据基础,利用多标准分词算法构建合法字符白名单,同时审核员根据实际检测结果对白名单进行实时更新,对于白名单中的每一个字词采用词向量嵌入技术进行语义向量化表示;步骤S3:在线非法字符匹配算法:利用多标准分词算法对待发布预警信息进行多标准分词获得候选字符集合,结合倒排索引与树状数据结构,设计大规模文本数据层级搜索 ...
【技术特征摘要】
1.一种基于智能语义感知的预警信息合法性检测方法,其特征在于:包括:步骤S1:基于深度学习的垂直领域预警文本多标准分词算法:利用公开数据集与垂直领域数据集,设计基于序列深度学习的多标准分词算法;步骤S2:基于人机耦合形式的白名单构建与实时更新方法:以已有合法预警信息库为数据基础,利用多标准分词算法构建合法字符白名单,同时审核员根据实际检测结果对白名单进行实时更新,对于白名单中的每一个字词采用词向量嵌入技术进行语义向量化表示;步骤S3:在线非法字符匹配算法:利用多标准分词算法对待发布预警信息进行多标准分词获得候选字符集合,结合倒排索引与树状数据结构,设计大规模文本数据层级搜索与比对算法,通过与白名单的语义对比实现预警信息文本中的非法字符的快速定位与判断。2.根据权利要求1所述的一种基于智能语义感知的预警信息合法性检测方法,其特征在于:其中步骤1具体为:步骤S11:字嵌入表示;首先将所有的字符编码为高维二元向量形式,随后对每一个字符利用膨胀卷积技术进行基于局部语义上下文的字符语义向量化映射,将字符高维二元向量映射为低维实数向量;步骤S12:整句语义上下文建模;通过步骤S11获得对每一个字符的语义向量化表示,随后对完整中文语句的正向语义和反向语义进行建模;然后采用条件随机场进行概率标注,求得最优分词序列结果;步骤S13:不同分词标准数据集联合建模;将标注方式作为一种隐含监督信息与步骤S12联合建模,即在步骤S12的基础上进行如下处理:(1)对所有标注类型进行0-N编号,在输入训练文本时,增加当前语句所属的标注类别信息;(2)对于步骤S12中得到的输入语句隐含向量表示,在其作为条件随机场输入的同时将其作为一个单分类神经网络的输入,此分类神经网络的监督信号为当前输入语句所处的分词标注类型的类别;步骤S14:统一端到端训练;将步骤S11、S12、S13统一在一个多标准分词模型中,使用误差反向传播算法进行端到端的训练;训练完成后在多标准分词模型使用时,直接将预警信息作为多标准分词模型的输入。3.根据权利要求2所述的一种基于智能语义感知的预警信息合法性检测方法,其特征在于:其中步骤S11中,首先将所有的字符进行独热编码表示为向量形式,随后采用层叠的膨胀卷积神经网络对每一个字符进行语义向量化映射;步骤S12中,采用层叠的双向长短时记忆单元同时对正向语义和反向语义进行建模;步骤S13中(2)具体为:对于步骤S12中采用层叠的双向长短时记忆单元得到的输入语句隐含向量表示。4.根据权利要求1至3任一所述的一种基于智能语义感知的预警信息合法性检测方法,其特征在于:所述步骤3具体为:步骤S31:将训练好的多标准分词模型作用于已有的所有训练文本语句,按分词标准将分词结果整合为不同的文本文件;对于所有文件使用词向量方法进行字符的高维向量表示压缩,即将白名单中的每一个字符表示为一个高维向量;步骤S32:对于待发布预警信息,首先利用多标准分词模型进行分词获得获选字符集合,随后将集合中的每一个字词都通过两种方式与白名单进行比对,比对方法为:首先字符集合中的每一个字符都以与步骤S31中一致的方式表示为二值高维向量,随后利用倒排索引和树状数据结构实现快速语义匹配,如果与白名...
【专利技术属性】
技术研发人员:苗开超,杨彬,年福东,张淑静,汪翔,李腾,吴丹娃,张亚力,程天奇,刘宜轩,
申请(专利权)人:安徽省公共气象服务中心,安徽大学,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。