非法网页的判断方法和装置制造方法及图纸

技术编号:19691978 阅读:26 留言:0更新日期:2018-12-08 11:13
本发明专利技术公开了非法网页的判断方法和装置。该方法包括:如果判断网页包括文本内容,则将网页的文本内容拆分成各个完整的句子;调用自然语言理解模型来判断每个句子的句子结构,并且根据判断出的句子的句子结构,将每个句子拆分成多个词语;根据句子结构,确定各个词语的词性,并且为各个词语添加相应的词性标签;根据带有词性标签的词语所对应的非法内容权重,计算网页的文本内容的非法内容分数,作为网页的非法内容分数;根据网页的非法内容分数,判断网页是否是非法网页。根据词语的权重来确定网页是否是非法网页,可以节省了大量的人工成本以及审核网页所需的时间,减小了人工审核时存在的判断错误的可能性或者遗漏非法网页内容的可能性。

【技术实现步骤摘要】
非法网页的判断方法和装置
本专利技术涉及信息识别技术,尤指一种非法网页的判断方法和装置。
技术介绍
伴随着互联网事业的迅速发展,互联网中充斥着大量的非法信息,这些非法信息藏匿在网页中,往往并不容易辨别出。目前,为了审核出网页中的非法信息,需要人工查看网页中的文本内容,然而,网页的文本内容更新的速度很快,如果采用人工岔开网页的文本内容的方式来审核的话,需要大量人工,产生巨大的工作量,成本高昂并且所耗费的时间很长;此外,人工在审核网页内容的时候,容易遗漏网页中的边角处的文本,最终造成非法信息并没有被审核出而漏过,审核效果不好。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种非法网页的判断方法和装置,其可以减少审核非法网页所耗费的人工以及时间,并且审核效果更好。一方面,本专利技术的实施例提供了一种非法网页的判断方法,该方法包括:判断网页是否包括文本内容和图像内容;如果网页包括文本内容,则将网页的文本内容拆分成各个完整的句子;调用自然语言理解模型来判断每个句子的句子结构,并且根据判断出的句子的句子结构,将每个句子拆分成多个词语;根据句子结构,确定各个词语的词性,并且为各个词语添加相应的词性标签;根据带有词性标签的词语所对应的非法内容权重,计算网页的文本内容的非法内容分数,作为网页的非法内容分数;根据网页的非法内容分数,判断网页是否是非法网页。进一步地,在一个可选的实施例中,该方法还包括:调用自然语言理解模型并且根据词语的词性,来为词语分配具有词性的词语的初始的非法内容权重;接收用户定义的词语的非法内容权重以及用户对于词语的词性的定义,采用用户定义的词语的非法内容权重来修改词语的非法内容权重;并且采用对于词语的词性的定义,来训练自然语言理解模型。进一步地,在一个可选的实施例中,将网页的文本内容拆分成各个完整的句子的步骤包括:从网页的文本内容中识别出网页的标签,并且删除网页的标签,然后将网页的文本内容拆分成各个完整的句子。进一步地,在一个可选的实施例中,将网页的文本内容拆分成各个完整的句子的步骤包括:从网页的文本内容中识别出多种自然语言的具有语义的文本,将多种自然语言中的一种自然语言作为标准自然语言,并且联网查询其他语言的具有语义的文本的标准自然语言的语义,然后按照网页的文本内容的标准自然语言的语义,将网页的文本内容拆分成各个完整的句子。进一步地,在一个可选的实施例中,在调用自然语言理解模型来判断每个句子的句子结构的步骤之前,该方法还包括:如果网页中的元素包括图像内容,则调用字符识别工具来识别并且存储图像内容中的的字符,并且将从图像内容中识别出的字符所包括的文本内容拆分成各个完整的句子。另一方面,本专利技术的实施例提供了一种非法网页的判断装置,该装置包括:内容判断模块,用于判断网页是否包括文本内容和图像内容;句子拆分模块,用于:如果内容判断模块判断网页包括文本内容,则将网页的文本内容拆分成各个完整的句子;词语拆分模块,用于:调用自然语言理解模型来判断每个句子的句子结构,并且根据判断出的句子的句子结构,将每个句子拆分成多个词语;词性确定模块,用于:根据句子结构,确定各个词语的词性,并且为各个词语添加相应的词性标签;权重计算模块,用于:根据带有词性标签的词语所对应的非法内容权重,计算网页的文本内容的非法内容分数,作为网页的非法内容分数;非法网页判断模块,用于:根据网页的非法内容分数,判断网页是否是非法网页。进一步地,在一个可选的实施例中,该装置还包括:初始权重分配模块,用于:调用自然语言理解模型并且根据词语的词性,来为词语分配具有词性的词语的初始的非法内容权重;权重修改与模型训练模块,用于:接收用户定义的词语的非法内容权重以及用户对于词语的词性的定义,采用用户定义的词语的非法内容权重来修改词语的非法内容权重;并且采用对于词语的词性的定义,来训练自然语言理解模型。进一步地,在一个可选的实施例中,句子拆分模块用于:从网页的文本内容中识别出网页的标签,并且删除网页的标签,然后将网页的文本内容拆分成各个完整的句子。进一步地,在一个可选的实施例中,句子拆分模块用于:从网页的文本内容中识别出多种自然语言的具有语义的文本,将多种自然语言中的一种自然语言作为标准自然语言,并且联网查询其他语言的具有语义的文本的标准自然语言的语义,然后按照网页的文本内容的标准自然语言的语义,将网页的文本内容拆分成各个完整的句子。进一步地,在一个可选的实施例中,该装置还包括:图像内容识别与拆分模块,用于:在词语拆分模块调用自然语言理解模型来判断每个句子的句子结构之前,如果内容判断模块判断网页中的元素包括图像内容,则图像内容识别与拆分模块调用字符识别工具来识别并且存储图像内容中的的字符,并且将从图像内容中识别出的字符所包括的文本内容拆分成各个完整的句子。本专利技术的实施例的有益效果在于,通过将网页的内容拆分成各个语义完整的句子,可以以每个句子作为单位进行分析。然后通过自然语言理解模型来判断每个句子的句子结构,并且根据判断出的句子的句子结构,将每个句子拆分成多个词语;通过这种方式,可以确定词语的词性,并且查询具有该词性的词语的非法内容权重;以网页中的词语所对应的非法网页内容权重为基础,可以计算出网页的内容的非法内容分数,作为网页的非法内容分数,进而判断网页是否是非法网页。通过本专利技术实施例提供的判断方法,可以采取自动化的方式根据词语的权重来确定网页是否是非法网页,节省了大量的人工成本并且节省了审核网页所需的时间,适合互联网事业未来的发展方向;另外,不易遗漏网页中的内容,减小了人工审核时存在的判断错误的可能性或者遗漏非法网页内容的可能性,因此审核的效果更好。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。图1为本专利技术实施例提供的非法网页的判断方法的流程图;图2为本专利技术的可选的实施例提供的非法网页的判断方法的流程图;图3为本专利技术实施例提供的非法网页的判断装置的框图;图4为本专利技术的可选的实施例提供的非法网页的判断装置的框图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。一方面,本专利技术的实施例提供了一种非法网页的判断方法,如图1所示,该方法包括步骤S101-步骤S111。步骤S101,判断网页是否包括文本内容和图像内容。网页的基本元素主要包括文本内容和图像内容。因此,针对文本内容和图像内容,需要采取不同的处理措施。步骤S103,如果网页包括文本内容,则将网页的文本内容拆分成各个完整的句子。在此,可以通过文本符号、间隔符、空格、段落符等各种符号来将网页的文本内容分成各本文档来自技高网...

【技术保护点】
1.一种非法网页的判断方法,其特征在于,包括:判断网页是否包括文本内容和图像内容;如果所述网页包括文本内容,则将所述网页的文本内容拆分成各个完整的句子;调用自然语言理解模型来判断每个句子的句子结构,并且根据判断出的句子的句子结构,将每个句子拆分成多个词语;根据所述句子结构,确定各个词语的词性,并且为各个所述词语添加相应的词性标签;根据带有所述词性标签的所述词语所对应的非法内容权重,计算所述网页的文本内容的非法内容分数,作为所述网页的非法内容分数;根据所述网页的非法内容分数,判断所述网页是否是非法网页。

【技术特征摘要】
1.一种非法网页的判断方法,其特征在于,包括:判断网页是否包括文本内容和图像内容;如果所述网页包括文本内容,则将所述网页的文本内容拆分成各个完整的句子;调用自然语言理解模型来判断每个句子的句子结构,并且根据判断出的句子的句子结构,将每个句子拆分成多个词语;根据所述句子结构,确定各个词语的词性,并且为各个所述词语添加相应的词性标签;根据带有所述词性标签的所述词语所对应的非法内容权重,计算所述网页的文本内容的非法内容分数,作为所述网页的非法内容分数;根据所述网页的非法内容分数,判断所述网页是否是非法网页。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:调用所述自然语言理解模型并且根据词语的词性,来为词语分配具有所述词性的词语的初始的非法内容权重;接收用户定义的词语的非法内容权重以及用户对于词语的词性的定义,采用所述用户定义的词语的非法内容权重来修改所述词语的非法内容权重;并且采用对于词语的词性的定义,来训练所述自然语言理解模型。3.根据权利要求1所述的方法,其中,所述将网页的文本内容拆分成各个完整的句子的步骤包括:从所述网页的文本内容中识别出网页的标签,并且删除网页的标签,然后将所述网页的文本内容拆分成各个完整的句子。4.根据权利要求1所述的方法,其中,所述将网页的文本内容拆分成各个完整的句子的步骤包括:从所述网页的文本内容中识别出多种自然语言的具有语义的文本,将所述多种自然语言中的一种自然语言作为标准自然语言,并且联网查询所述其他语言的具有语义的文本的标准自然语言的语义,然后按照所述网页的文本内容的标准自然语言的语义,将所述网页的文本内容拆分成各个完整的句子。5.根据权利要求1所述的方法,其中,在所述调用自然语言理解模型来判断每个句子的句子结构的步骤之前,所述方法还包括:如果所述网页中的元素包括图像内容,则调用字符识别工具来识别并且存储所述图像内容中的的字符,并且将从所述图像内容中识别出的字符所包括的文本内容拆分成各个完整的句子。6.一种非法网页的判断装置,其特征在于,包括:内容判断模块,用于判断网页是否包括文本内容和图像内容;句子拆...

【专利技术属性】
技术研发人员:董金波
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1