非法网页的判断方法和装置制造方法及图纸

技术编号：19691978 阅读：26 留言：0更新日期：2018-12-08 11:13

本发明专利技术公开了非法网页的判断方法和装置。该方法包括：如果判断网页包括文本内容，则将网页的文本内容拆分成各个完整的句子；调用自然语言理解模型来判断每个句子的句子结构，并且根据判断出的句子的句子结构，将每个句子拆分成多个词语；根据句子结构，确定各个词语的词性，并且为各个词语添加相应的词性标签；根据带有词性标签的词语所对应的非法内容权重，计算网页的文本内容的非法内容分数，作为网页的非法内容分数；根据网页的非法内容分数，判断网页是否是非法网页。根据词语的权重来确定网页是否是非法网页，可以节省了大量的人工成本以及审核网页所需的时间，减小了人工审核时存在的判断错误的可能性或者遗漏非法网页内容的可能性。

全部详细技术资料下载

【技术实现步骤摘要】
非法网页的判断方法和装置
本专利技术涉及信息识别技术，尤指一种非法网页的判断方法和装置。
技术介绍
伴随着互联网事业的迅速发展，互联网中充斥着大量的非法信息，这些非法信息藏匿在网页中，往往并不容易辨别出。目前，为了审核出网页中的非法信息，需要人工查看网页中的文本内容，然而，网页的文本内容更新的速度很快，如果采用人工岔开网页的文本内容的方式来审核的话，需要大量人工，产生巨大的工作量，成本高昂并且所耗费的时间很长；此外，人工在审核网页内容的时候，容易遗漏网页中的边角处的文本，最终造成非法信息并没有被审核出而漏过，审核效果不好。
技术实现思路
为了解决上述技术问题，本专利技术提供了一种非法网页的判断方法和装置，其可以减少审核非法网页所耗费的人工以及时间，并且审核效果更好。一方面，本专利技术的实施例提供了一种非法网页的判断方法，该方法包括：判断网页是否包括文本内容和图像内容；如果网页包括文本内容，则将网页的文本内容拆分成各个完整的句子；调用自然语言理解模型来判断每个句子的句子结构，并且根据判断出的句子的句子结构，将每个句子拆分成多个词语；根据句子结构，确定各个词语的词性，并且为各个词语添加相应的词性标签；根据带有词性标签的词语所对应的非法内容权重，计算网页的文本内容的非法内容分数，作为网页的非法内容分数；根据网页的非法内容分数，判断网页是否是非法网页。进一步地，在一个可选的实施例中，该方法还包括：调用自然语言理解模型并且根据词语的词性，来为词语分配具有词性的词语的初始的非法内容权重；接收用户定义的词语的非法内容权重以及用户对于词语的词性的定义，采用用户定义的词语的非法...

【技术保护点】
1.一种非法网页的判断方法，其特征在于，包括：判断网页是否包括文本内容和图像内容；如果所述网页包括文本内容，则将所述网页的文本内容拆分成各个完整的句子；调用自然语言理解模型来判断每个句子的句子结构，并且根据判断出的句子的句子结构，将每个句子拆分成多个词语；根据所述句子结构，确定各个词语的词性，并且为各个所述词语添加相应的词性标签；根据带有所述词性标签的所述词语所对应的非法内容权重，计算所述网页的文本内容的非法内容分数，作为所述网页的非法内容分数；根据所述网页的非法内容分数，判断所述网页是否是非法网页。

【技术特征摘要】
1.一种非法网页的判断方法，其特征在于，包括：判断网页是否包括文本内容和图像内容；如果所述网页包括文本内容，则将所述网页的文本内容拆分成各个完整的句子；调用自然语言理解模型来判断每个句子的句子结构，并且根据判断出的句子的句子结构，将每个句子拆分成多个词语；根据所述句子结构，确定各个词语的词性，并且为各个所述词语添加相应的词性标签；根据带有所述词性标签的所述词语所对应的非法内容权重，计算所述网页的文本内容的非法内容分数，作为所述网页的非法内容分数；根据所述网页的非法内容分数，判断所述网页是否是非法网页。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：调用所述自然语言理解模型并且根据词语的词性，来为词语分配具有所述词性的词语的初始的非法内容权重；接收用户定义的词语的非法内容权重以及用户对于词语的词性的定义，采用所述用户定义的词语的非法内容权重来修改所述词语的非法内容权重；并且采用对于词语的词性的定义，来训练所述自然语言理解模型。3.根据权利要求1所述的方法，其中，所述将网页的文本内容拆分成各个完整的句子的步骤包括：从所述网页的文本内容中识别出网页的标签，并且删除网页的标签，然后将所述网页的文本内容拆分成各个完整的句子。4.根据权利要求1所述的方法，其中，所述将网页的文本内容拆分成各个完整的句子的步骤包括：从所述网页的文本内容中识别出多种自然语言的具有语义的文本，将所述多种自然语言中的一种自然语言作为标准自然语言，并且联网查询所述其他语言的具有语义的文本的标准自然语言的语义，然后按照所述网页的文本内容的标准自然语言的语义，将所述网页的文本内容拆分成各个完整的句子。5.根据权利要求1所述的方法，其中，在所述调用自然语言理解模型来判断每个句子的句子结构的步骤之前，所述方法还包括：如果所述网页中的元素包括图像内容，则调用字符识别工具来识别并且存储所述图像内容中的的字符，并且将从所述图像内容中识别出的字符所包括的文本内容拆分成各个完整的句子。6.一种非法网页的判断装置，其特征在于，包括：内容判断模块，用于判断网页是否包括文本内容和图像内容；句子拆...

【专利技术属性】
技术研发人员：董金波，
申请(专利权)人：郑州云海信息技术有限公司，
类型：发明
国别省市：河南,41

全部详细技术资料下载我是这个专利的主人