维吾尔语敏感词过滤系统技术方案

技术编号:11266639 阅读:111 留言:0更新日期:2015-04-08 12:35
本发明专利技术提供一种维吾尔语敏感词过滤系统,包括:维吾尔语敏感词数据库、维吾尔语文本动态采集系统、维吾尔语敏感词校对系统、阈值判断模块、维吾尔语敏感词过滤系统、维吾尔语敏感词替换系统、后台显示模块、人工审核模块和推送显示模块。本发明专利技术提供的维吾尔语敏感词过滤系统,实现了通信及移动互联网终端平台以及企业级应用中维吾尔语敏感词过滤,从而高效率的防止非法内容散播,减轻系统管理员负担,减少敏感词过滤遗漏,增加系统的健壮性和可靠性。

【技术实现步骤摘要】
【专利摘要】本专利技术提供一种维吾尔语敏感词过滤系统,包括:维吾尔语敏感词数据库、维吾尔语文本动态采集系统、维吾尔语敏感词校对系统、阈值判断模块、维吾尔语敏感词过滤系统、维吾尔语敏感词替换系统、后台显示模块、人工审核模块和推送显示模块。本专利技术提供的维吾尔语敏感词过滤系统,实现了通信及移动互联网终端平台以及企业级应用中维吾尔语敏感词过滤,从而高效率的防止非法内容散播,减轻系统管理员负担,减少敏感词过滤遗漏,增加系统的健壮性和可靠性。【专利说明】维吾尔语敏感词过滤系统
本专利技术属于通信及移动互联网
,具体设及一种维吾尔语敏感词过滤系 统。
技术介绍
随着互联网的飞速发展,各个社交网站由于具有内容丰富、互动性强、实时性强等 优点,已成为人们沟通的主要交流方式之一。对于维吾尔语社交网站,其影响也影响范围越 来越大。 然而,维吾尔语社交网站在为人们带来便利的同时,由于不具备敏感词过滤功能, 因此,不可避免地会传播一些不良内容,由此损害公众利益。
技术实现思路
针对现有技术存在的缺陷,本专利技术提供一种维吾尔语敏感词过滤系统,支持对维 吾尔语社交网站进行内容过滤,从而有效解决上述问题。 本专利技术采用的技术方案如下: 本专利技术提供一种维吾尔语敏感词过滤系统,包括: 维吾尔语敏感词数据库,用于收集和汇编维吾尔语敏感词,同时,对于存储的每个 所述维吾尔语敏感词,均绑定存储所述维吾尔语敏感词的维吾尔语替换词W及中文译词; [000引维吾尔语文本动态采集系统,用于实时动态采集监测对象的维吾尔语文本; 维吾尔语敏感词校对系统,用于对所述维吾尔语文本动态采集系统采集到的所述 维吾尔语文本进行内容校对,基于匹配算法判断所述维吾尔语文本是否包含与所述维吾尔 语敏感词数据库中所存储的维吾尔语敏感词相同或相似的维吾尔语敏感词;如果包含,贝U 直接获取所述维吾尔语文本中包含的维吾尔语敏感词,同时获取与所述维吾尔语文本中包 含的维吾尔语敏感词对应的维吾尔语替换词与中文译词; 阔值判断模块,用于对所述维吾尔语敏感词校对系统所得到的所述维吾尔语敏感 词数量进行统计,得到所述维吾尔语敏感词的数量,记为N ; W及,对当前被处理的所述维 吾尔语文本的文本大小进行计算,得到当前被处理的所述维吾尔语文本的文本信息容量 值,记为M ;然后,判断N/M是否大于设定阔值,如果大于,则执行维吾尔语敏感词过滤系统; 如果小于,则执行维吾尔语敏感词替换系统; 维吾尔语敏感词过滤系统,用于直接屏蔽过滤掉所述维吾尔语文本; 维吾尔语敏感词替换系统,用于在所述维吾尔语文本中,对所述维吾尔语敏感词 校对系统所得到的每个所述维吾尔语敏感词进行替换操作,替换为与所述维吾尔语敏感词 对应的维吾尔语替换词,同时,W替换框的方式突出显示每个所述维吾尔语替换词对应的 维吾尔语敏感词W及中文译词,得到第一次处理后的维吾尔语文本; 后台显示模块,用于在后台显示所述第一次处理后的维吾尔语文本; 人工审核模块,用于对所述后台显示模块显示的所述第一次处理后的维吾尔语文 本进行人工审核,进一步确认所替换的是否为敏感词,如果是,则接受所述维吾尔语敏感词 替换系统对该维吾尔语敏感词的替换操作,同时,从所述第一次处理后的维吾尔语文本中 取消对应的替换框;如果不是,则拒绝所述维吾尔语敏感词替换系统对该维吾尔语敏感词 的替换操作,依据对应的替换框,还原显示原来的维吾尔语词,同时,从所述第一次处理后 的维吾尔语文本中取消对应的替换框;由此得到第二次处理后的维吾尔语文本; 推送显示模块,用于将所述人工审核模块审核后的所述第二次处理后的维吾尔语 文本显示到监测对象的对应位置。 优选的,所述维吾尔语敏感词校对系统具体用于: 根据所述维吾尔语文本动态采集系统采集到的所述维吾尔语文本的信息容量的 大小,所述维吾尔语敏感词校对系统将所述维吾尔语文本划分为n个单元; 然后,所述维吾尔语敏感词校对系统并行启动n个内容校对器,所述n个内容校对 器并行对所述维吾尔语文本的n个单元进行内容校对。 优选的,所述维吾尔语敏感词校对系统所采用的所述匹配算法包括;核算法、找算 法或对照拼写校对算法; 对于仅支持汉语的匹配算法,在所述仅支持汉语的匹配算法的算法代码中加载维 吾尔文字符U nicode编码组件并声明维吾尔文字符U nicode编码规范;然后,将所述维吾 尔文字符U nicode编码组件与所述维吾尔语敏感词数据库进行对接,实现将所述仅支持汉 语的匹配算法转化为支持维吾尔文的匹配算法。 优选的,还包括: 数据库管理模块,用于对所述维吾尔语敏感词数据库进行管理维护,包括: 备份管理单元,用于对所述维吾尔语敏感词数据库进行定期或非定期备份管理, 包括自动备份和手动备份模式; 恢复管理单元,用于当所述维吾尔语敏感词数据库出现故障时,对所述维吾尔语 敏感词数据库进行故障恢复管理操作; 版本管理单元,用于对所述维吾尔语敏感词数据库进行版本升级操作。 优选的,还包括: 敏感词管理模块,用于对所述维吾尔语敏感词数据库中所存储的维吾尔语敏感词 进行管理,包括: [002引敏感词添加单元,用于向所述维吾尔语敏感词数据库中增加新的维吾尔语敏感 词,其工作流程为: 读取需添加的维吾尔语敏感词,同时,还读取与所述维吾尔语敏感词对应的维吾 尔语替换词W及中文译意; 捜索所述维吾尔语敏感词数据库,判断所述维吾尔语敏感词数据库是否存储与所 述需添加的维吾尔语敏感词相同的维吾尔语敏感词,如果相同,则忽略本次添加操作,继续 读取并处理下一个需添加的维吾尔语敏感词;如果不相同,则将所述维吾尔语敏感词、维吾 尔语替换词W及中文译意添加到所述维吾尔语敏感词数据库; 敏感词编辑单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏 感词、维吾尔语替换词W及中文译意进行编辑操作; 敏感词捜索单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏 感词、维吾尔语替换词w及中文译意进行捜索操作; 敏感词查看单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏 感词按首字母进行排序,进而查看排序后的所述维吾尔语敏感词。 优选的,还包括;管理员管理模块;所述管理员管理模块包括;管理员个人信息修 改单元、管理员权限设置单元W及管理员访问密码设置单元。 优选的,还包括;统计管理模块,包括;操作记录统计单元、管理员行为统计单元 W及敏感词统计单元;其中,所述敏感词统计单元用于统计匹配成功的敏感词数量。 本专利技术的有益效果如下; 本专利技术提供的维吾尔语敏感词过滤系统,实现了通信及移动互联网终端平台W及 企业级应用中维吾尔语敏感词过滤,从而高效率的防止非法内容散播,减轻系统管理员负 担,减少敏感词过滤遗漏,增加系统的健壮性和可靠性。 【专利附图】【附图说明】 [003引图1为本专利技术提供的维吾尔语敏感词过滤系统的原理结构示意图; 图2为本专利技术提供的维吾尔语敏感词过滤系统的体系架构示意图; 图3为敏感词添加单元的工作流程图; 图4为敏感词捜索单元的工作流程图。 【具体实施方式】 本文档来自技高网...

【技术保护点】
一种维吾尔语敏感词过滤系统,其特征在于,包括:维吾尔语敏感词数据库,用于收集和汇编维吾尔语敏感词,同时,对于存储的每个所述维吾尔语敏感词,均绑定存储所述维吾尔语敏感词的维吾尔语替换词以及中文译词;维吾尔语文本动态采集系统,用于实时动态采集监测对象的维吾尔语文本;维吾尔语敏感词校对系统,用于对所述维吾尔语文本动态采集系统采集到的所述维吾尔语文本进行内容校对,基于匹配算法判断所述维吾尔语文本是否包含与所述维吾尔语敏感词数据库中所存储的维吾尔语敏感词相同或相似的维吾尔语敏感词;如果包含,则直接获取所述维吾尔语文本中包含的维吾尔语敏感词,同时获取与所述维吾尔语文本中包含的维吾尔语敏感词对应的维吾尔语替换词与中文译词;阈值判断模块,用于对所述维吾尔语敏感词校对系统所得到的所述维吾尔语敏感词数量进行统计,得到所述维吾尔语敏感词的数量,记为N;以及,对当前被处理的所述维吾尔语文本的文本大小进行计算,得到当前被处理的所述维吾尔语文本的文本信息容量值,记为M;然后,判断N/M是否大于设定阈值,如果大于,则执行维吾尔语敏感词过滤系统;如果小于,则执行维吾尔语敏感词替换系统;维吾尔语敏感词过滤系统,用于直接屏蔽过滤掉所述维吾尔语文本;维吾尔语敏感词替换系统,用于在所述维吾尔语文本中,对所述维吾尔语敏感词校对系统所得到的每个所述维吾尔语敏感词进行替换操作,替换为与所述维吾尔语敏感词对应的维吾尔语替换词,同时,以替换框的方式突出显示每个所述维吾尔语替换词对应的维吾尔语敏感词以及中文译词,得到第一次处理后的维吾尔语文本;后台显示模块,用于在后台显示所述第一次处理后的维吾尔语文本;人工审核模块,用于对所述后台显示模块显示的所述第一次处理后的维吾尔语文本进行人工审核,进一步确认所替换的是否为敏感词,如果是,则接受所述维吾尔语敏感词替换系统对该维吾尔语敏感词的替换操作,同时,从所述第一次处理后的维吾尔语文本中取消对应的替换框;如果不是,则拒绝所述维吾尔语敏感词替换系统对该维吾尔语敏感词的替换操作,依据对应的替换框,还原显示原来的维吾尔语词,同时,从所述第一次处理后的维吾尔语文本中取消对应的替换框;由此得到第二次处理后的维吾尔语文本;推送显示模块,用于将所述人工审核模块审核后的所述第二次处理后的维吾尔语文本显示到监测对象的对应位置。...

【技术特征摘要】

【专利技术属性】
技术研发人员:帕哈尔丁·西日甫
申请(专利权)人:新疆卡尔罗媒体科技有限公司
类型:发明
国别省市:新疆;65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1