一种基于神经网络的自学习语义检测方法及系统技术方案

技术编号:10135658 阅读:178 留言:0更新日期:2014-06-16 15:02
本发明专利技术公开了一种基于神经网络的自学习语义检测方法及系统,所述方法包含:步骤101)导入字典库对待识别的文件名分词,获得文件名中的关键词,基于贝叶斯算法计算每个关键词的概率项;且所述概率项基于对文件名良或不良的判断结果的分析获取;步骤102)获取所有关键词对应的在良语义字符串名中出现的概率之积与良语义字符串名的先验概率的乘积;和所有关键词对应的在不良语义字符串名中出现的概率之积与不良语义字符串名的先验概率的乘积;步骤103)比较上述两个乘积,如果良语义字符串的乘积项大于不良语义字符串的乘积项,则该字符串是良语义的,反之则是不良语义的,将判决结果存入到存储介质中。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于神经网络的自学习语义检测方法及系统,所述方法包含:步骤101)导入字典库对待识别的文件名分词,获得文件名中的关键词,基于贝叶斯算法计算每个关键词的概率项;且所述概率项基于对文件名良或不良的判断结果的分析获取;步骤102)获取所有关键词对应的在良语义字符串名中出现的概率之积与良语义字符串名的先验概率的乘积;和所有关键词对应的在不良语义字符串名中出现的概率之积与不良语义字符串名的先验概率的乘积;步骤103)比较上述两个乘积,如果良语义字符串的乘积项大于不良语义字符串的乘积项,则该字符串是良语义的,反之则是不良语义的,将判决结果存入到存储介质中。【专利说明】—种基于神经网络的自学习语义检测方法及系统
本专利技术属于网络信息处理与分析领域,尤其涉及到文字信息内容性质与倾向性的自动判定领域,具体涉及一种基于神经网络的自学习语义检测方法及系统。
技术介绍
网络信息的自动处理与分析技术是实现网络内容的分析、检测与管理的重要组成部分,对于网络内容处理与安全系统的构建具有重要意义。由于网络技术的不断发展和运营商提供的带宽不断的提高,用户可以很方便的访问下载网络上的各种信息,其中,带宽的提升为信息传递提供了更宽广的舞台的同时,也给不良信息传播提供了新便利。近年来,网络上的淫秽、色情和反动等有害信息传播盛行,传统网络信息处理方案对于这些有害信息的识别往往需要很大的人力和物力,受客观条件的限制,对于网络不良信息的发现与处理远不能满足现实需要。互联网就像由许多河流交汇组成的庞大水系,里面高速地流动着各种各样的内容信息,网络用户通过到河里取水的方式访问互联网。互联网这个江河水系的流量巨大、流速极快,连接到之上的用户数量数以亿计。传统的网络信息处理和分析方案无法实现网络信息性质的自动和智能化分析,必须投入大量的人员进行手工分析和判别。现有技术只是单纯的定义某个分词是良或者不良,如果文件名包含不良的分词即判断此文件名为不良,而不是进行贝叶斯的全概率分析;另外,这种定义分词的工作量很大,比较难以更新,本系统可以随时进行自学习更新,以免出现新兴的词而造成漏判或误判;还有,本系统还增加了反馈环节,防止分词不完整或不正确,提高成功率。从系统组成上分析现有的判别系统基本上只有一个分词模块和判别模块,进行简单的分词,然后看是否包含不良关键词,以此来判断文件名的属性,往往成功率不高。当前形势下,面临互联网中海量内容,使用人工方法要做到实时分析已经无法应对,迫切需要具有智能分析 能力的网络信息处理和识别方案,实现对特定网络信息性质的自动检测和判定。
技术实现思路
本专利技术的目的在于为克服上述问题,本专利技术提供了一种基于神经网络的自学习语义检测方法及系统。为实现上述目的,本专利技术提供了一种基于神经网络的自学习语义检测方法,所述方法包含:步骤101)导入字典库对待识别的文件名分词,获得文件名中的关键词,基于贝叶斯算法计算每个关键词的概率项;且所述概率项基于对文件名良或不良的判断结果的分析获取;步骤102)获取所有关键词对应的在良语义字符串名中出现的概率之积和良语义字符串名的先验概率,并将上述两个参量值相乘得到第一乘积;并获取所有关键词对应的在不良语义字符串名中出现的概率之积和不良语义字符串名的先验概率,并将两个参量相乘得到第二与的乘积;步骤103)比较第一乘积与第二乘积的大小,如果第一乘积项大于第二乘积项,则该字符串是良语义的,反之则是不良语义的,将判决结果存入到存储介质中。上述概率项为:良和不良两种类别分别所占百分比P (Vj)和从类别Vj中的一个文件名随机抽取的一个词为Wk的概率【权利要求】1.一种基于神经网络的自学习语义检测方法,所述方法包含: 步骤101)导入字典库对待识别的文件名分词,获得文件名中的关键词,基于贝叶斯算法计算每个关键词的概率项;且所述概率项基于对文件名良或不良的判断结果的分析获取; 步骤102)获取所有关键词对应的在良语义字符串名中出现的概率之积和良语义字符串名的先验概率,并将上述两个参量值相乘得到第一乘积;并 获取所有关键词对应的在不良语义字符串名中出现的概率之积和不良语义字符串名的先验概率,并将两个参量相乘得到第二与的乘积; 步骤103)比较第一乘积与第二乘积的大小,如果第一乘积项大于第二乘积项,则该字符串是良语义的,反之则是不良语义的,将判决结果存入到存储介质中。2.根据权利要求1所述的基于神经网络的自学习语义检测方法,其特征在于,所述概率项为:良和不良两种类别分别所占百分比P(Vj)和从类别Vj中的一个文件名随机抽取的一个词为Wk的概率 3.根据权利要求2所述的基于神经网络的自学习语义检测方法,其特征在于, 步骤102)所述的所有关键词对应的在良语义字符串名中出现的概率之积 4.根据权利要求1所述的基于神经网络的自学习语义检测方法,其特征在于,所述步骤101)和步骤102)之间还包含: 采用反馈策略保证文件名中所有关键词分词的完整。5.一种基于神经网络的自学习语义检测系统,所述系统包含: 概率项获取模块,用于导入字典库对待识别的文件名分词,获得文件名中的关键词,基于贝叶斯算法计算每个关键词的概率项;且所述概率项基于对良或不良的判断结果的分析获取;处理模块,用于获取所有关键词对应的在良语义字符串名中出现的概率之积与良语义字符串名的先验概率,并将良语义字符串名中出现的概率之积与良语义字符串名的先验概率相乘;并获取所有关键词对应的在不良语义字符串名中出现的概率之积与不良语义字符串名的先验概率,并将不良语义字符串名中出现的概率之积与不良语义字符串名的先验概率相乘; 比较判决模块,用于依据处理模块的输出结果,进行如下判决: 如果良语义字符串名中出现的概率之积与良语义字符串名的先验概率相乘的结果大于良语义字符串名中出现的概率之积与不良语义字符串名的先验概率相乘的结果,则该字符串是良语义的,反之则是不良语义的,将判决结果存入到存储介质中。6.根据权利要求5所述的基于神经网络的自学习语义检测系统,其特征在于,所述概率项包含类别所占百分比P (Vj)和从类别Vj中的一个文件名随即抽取的一个词为Wk的概率 7.根据权利要求6所述的基于神经网络的自学习语义检测系统,其特征在于,所述处理模块进一步包含: 第一处理子模块,用于依据印(合法)= 8.根据权利要求5所述的基于神经网络的自学习语义检测系统,其特征在于,所述系统还包含位于概率项获取模块和处理模块之间的反馈模块,该反馈模块用于保证关键词是否分词完整,将未完整分词的重新启动关键词分词。【文档编号】G06F17/27GK103853701SQ201210505765【公开日】2014年6月11日 申请日期:2012年11月30日 优先权日:2012年11月30日 【专利技术者】苏青, 苗光胜, 牛温佳, 唐晖, 慈松, 谭红艳 申请人:中国科学院声学研究所, 华数传媒网络有限公司本文档来自技高网
...

【技术保护点】
一种基于神经网络的自学习语义检测方法,所述方法包含:步骤101)导入字典库对待识别的文件名分词,获得文件名中的关键词,基于贝叶斯算法计算每个关键词的概率项;且所述概率项基于对文件名良或不良的判断结果的分析获取;步骤102)获取所有关键词对应的在良语义字符串名中出现的概率之积和良语义字符串名的先验概率,并将上述两个参量值相乘得到第一乘积;并获取所有关键词对应的在不良语义字符串名中出现的概率之积和不良语义字符串名的先验概率,并将两个参量相乘得到第二与的乘积;步骤103)比较第一乘积与第二乘积的大小,如果第一乘积项大于第二乘积项,则该字符串是良语义的,反之则是不良语义的,将判决结果存入到存储介质中。

【技术特征摘要】

【专利技术属性】
技术研发人员:苏青苗光胜牛温佳唐晖慈松谭红艳
申请(专利权)人:中国科学院声学研究所华数传媒网络有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1