错敏信息检测方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:35224056 阅读:18 留言:0更新日期:2022-10-15 10:42
本发明专利技术公开了一种错敏信息检测方法、装置、计算机设备及存储介质,该方法包括:预先建立错敏信息检测规则库,所述错敏信息检测规则库包括基础词库、严重词库、自定义检测词库中的至少一种;获取政府网站中的待检测网页内容;基于所述错敏信息规则库对所述待检测网页内容进行检测,得到检测结果;当所述检测结果为异常时进行报警提示。本发明专利技术基于错敏信息规则库进行检测,可以实现从不同角度的信息多次检查和校对检测,同时也解决了政府各部门之间对内容检测的不同要求;基于“智能联想构词”的思路实现对错敏信息规则库的丰富。此外,实际结果显示采用本发明专利技术提供的方案对政府网站及新媒体数据的检测效果大幅度得到提升,误报率也大大减少。也大大减少。也大大减少。

【技术实现步骤摘要】
错敏信息检测方法、装置、计算机设备及存储介质


[0001]本专利技术涉及错敏信息检测
,尤其涉及一种错敏信息检测方法、装 置、计算机设备及存储介质。

技术介绍

[0002]现如今,信息技术迅猛发展,以信息技术为代表的新一轮科技革命加速了政 府与社会其他各个领域、各个行业的融合,而且,信息化已经成为国家综合实力 和现代化的重要标志。随着政府门户网站、政务新媒体的发展,政府的信息和服 务渠道逐渐增多,在这些信息和服务渠道中会发生诸多问题,例如,网站上出现 错别字、敏感词、错误链接等错敏信息,这些问题通过各行业媒体信息报道逐步 发酵,往往会引发社会普遍关注,进而对政府形象造成严重影响。因此,对政府 门户网站、政务新媒体发布前的信息检查以及发布后的信息检测已成为各级政府 部门的常态化需求。
[0003]现有技术中,通常采用机械性匹配词库方式对文字其进行检查,并且,当信 息中包含错别字、敏感词、错误链接等错敏信息时,系统将根据具体片段进行提 示,最后经人工核对加以确认和修改。
[0004]虽然现有技术可以从一定程度上降低错敏信息的发生,但是,在对政府门户 网站、政务新媒体进行错别字、敏感词、错误链接检查时,因政府行业有其特殊 性,仅仅进行简单的机械性错词匹配告警,这样依然容易产品诸多误报的情况。 因此,如何对政府门户网站及新媒体信息进行实时高效的检测,减少误报率,是 本领域亟待解决的重要问题。

技术实现思路

[0005]本专利技术要解决的技术问题是:现有技术中采用简单的机械性错词匹配告警, 容易产品诸多误报的问题。
[0006]为解决上述技术问题,本专利技术提供了一种错敏信息检测方法,包括:
[0007]预先建立错敏信息检测规则库,所述错敏信息检测规则库包括基础词库、严 重词库、自定义检测词库中的至少一种;
[0008]获取政府网站中的待检测网页内容;
[0009]基于所述错敏信息规则库对所述待检测网页内容进行检测,得到检测结果;
[0010]当所述检测结果为异常时进行报警提示。
[0011]可选地,所述预先建立错敏信息检测规则库包括:
[0012]将自然语言在使用过程中出现的常规性错误识别词库作为基础词库;
[0013]将包含个人隐私、涉密词汇、网络欺诈、游戏的词库作为严重词库;
[0014]将根据不同用户需求或不同行业要求构建的用户个性化词库,和/或,根据不 同用户需求或不同行业要求构建的可过滤掉的个性化词库作为自定义检测词库。
[0015]可选地,在所述检测结果为异常的情况下,还包括:
[0016]将所述检测结果中的错敏信息作为原始词汇,按照词语联想的方式得到多个 相
关联的派生词汇;
[0017]基于所述多个派生词汇对所述错敏信息检测规则库进行更新,以便利用更新 后的错敏信息检测规则库对待检测网页内容进行检测。
[0018]可选地,所述将所述检测结果中的错敏信息作为原始词汇,按照词语联想的 方式得到多个相关联的派生词汇的步骤包括:
[0019]按照以下方式中的至少一种得到多个相关联的派生词汇:
[0020]提取与所述原始词汇语音相近的词汇;
[0021]提取与所述原始词汇偏旁相近的词汇;
[0022]提取与所述原始词汇语义相近的词汇。
[0023]可选地,所述基于所述错敏信息规则库对所述待检测网页内容进行检测的步 骤包括:
[0024]预先设定每天待检测网页内容与配置信息;
[0025]按照所设定的配置信息对每天待检测网页内容进行扫描,以实现自动检测。
[0026]可选地,还包括:
[0027]基于发布系统CMS的WebService接口获取待发布网页内容;
[0028]基于所述错敏信息规则库对所述待发布网页内容进行检测,得到检测结果;
[0029]当检测结果为正常时发布至Web服务器;
[0030]当检测结果为异常时进行报警,并返回所述发布系统CMS进行修改。
[0031]可选地,还包括:
[0032]在所述检测结果为异常且进行报警提示的情况下,将所述检测结果中的错敏 信息发送给人工处理。
[0033]为解决上述技术问题,本专利技术提供了一种错敏信息检测装置,包括:
[0034]规则库构建模块,用于预先建立错敏信息检测规则库,所述错敏信息检测规 则库包括基础词库、严重词库、自定义检测词库中的至少一种;
[0035]检测内容获取模块,用于获取政府网站中的待检测网页内容;
[0036]错敏信息检测模块,用于基于所述错敏信息规则库对所述待检测网页内容进 行检测,得到检测结果;
[0037]报警模块,用于在所述检测结果为异常时进行报警提示。
[0038]可选地,所述规则库构建模块具体用于:
[0039]将自然语言在使用过程中出现的常规性错误识别词库作为基础词库;
[0040]将包含个人隐私、涉密词汇、网络欺诈、游戏的词库作为严重词库;
[0041]将根据不同用户需求或不同行业要求构建的用户个性化词库,和/或,根据不 同用户需求或不同行业要求构建的可过滤掉的个性化词库作为自定义检测词库。
[0042]可选地,还包括:智能联想构词模块,用于在所述检测结果为异常的情况下, 将所述检测结果中的错敏信息作为原始词汇,按照词语联想的方式得到多个相关 联的派生词汇;
[0043]所述规则库构建模块,还用于基于所述多个派生词汇对所述错敏信息检测规 则库进行更新,以便利用更新后的错敏信息检测规则库对待检测网页内容进行检 测。
[0044]可选地,所述智能联想构词模块具体用于,按照以下方式中的至少一种得到 多个
相关联的派生词汇:
[0045]提取与所述原始词汇语音相近的词汇;
[0046]提取与所述原始词汇偏旁相近的词汇;
[0047]提取与所述原始词汇语义相近的词汇。
[0048]可选地,所述错敏信息检测模块具体用于:
[0049]预先设定每天待检测网页内容与配置信息;
[0050]按照所设定的配置信息对每天待检测网页内容进行扫描,以实现自动检测。
[0051]可选地,所述检测内容获取模块,还用于基于发布系统CMS的WebService 接口获取待发布网页内容;
[0052]所述错敏信息检测模块,用于基于所述错敏信息规则库对所述待发布网页内 容进行检测,得到检测结果;
[0053]所述报警模块,还用于当检测结果为正常时发布至Web服务器;以及,当检 测结果为异常时进行报警,并返回所述发布系统CMS进行修改。
[0054]可选地,还包括:人工处理模块,用于在所述检测结果为异常且进行报警提 示的情况下,将所述检测结果中的错敏信息发送给人工处理。
[0055]为解决上述技术问题,本专利技术提供了一种计算机设备,包括存储器、处理器 及存储在存储器上并可在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种错敏信息检测方法,其特征在于,包括:预先建立错敏信息检测规则库,所述错敏信息检测规则库包括基础词库、严重词库、自定义检测词库中的至少一种;获取政府网站中的待检测网页内容;基于所述错敏信息规则库对所述待检测网页内容进行检测,得到检测结果;当所述检测结果为异常时进行报警提示。2.根据权利要求1所述的错敏信息检测方法,其特征在于,所述预先建立错敏信息检测规则库包括:将自然语言在使用过程中出现的常规性错误识别词库作为基础词库;将包含个人隐私、涉密词汇、网络欺诈、游戏的词库作为严重词库;将根据不同用户需求或不同行业要求构建的用户个性化词库,和/或,根据不同用户需求或不同行业要求构建的可过滤掉的个性化词库作为自定义检测词库。3.根据权利要求2所述的错敏信息检测方法,其特征在于,在所述检测结果为异常的情况下,还包括:将所述检测结果中的错敏信息作为原始词汇,按照词语联想的方式得到多个相关联的派生词汇;基于所述多个派生词汇对所述错敏信息检测规则库进行更新,以便利用更新后的错敏信息检测规则库对待检测网页内容进行检测。4.根据权利要求3所述的错敏信息检测方法,其特征在于,所述将所述检测结果中的错敏信息作为原始词汇,按照词语联想的方式得到多个相关联的派生词汇的步骤包括:按照以下方式中的至少一种得到多个相关联的派生词汇:提取与所述原始词汇语音相近的词汇;提取与所述原始词汇偏旁相近的词汇;提取与所述原始词汇语义相近的词汇。5.根据权利要求1所述的错敏信息检测方法,其特征在于,所述基...

【专利技术属性】
技术研发人员:朱自力
申请(专利权)人:北京网景盛世技术开发中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1