基于专家系统URL清洗知识库的“垃圾”内容过滤方法技术方案

技术编号：10170364 阅读：220 留言：0更新日期：2014-07-02 12:02

基于专家系统URL清洗知识库的“垃圾”内容过滤方法，属于海量大数据清洗、数据顾虑领域。本发明专利技术采用人工智能专家系统的方法，通过“完全URL”、“含一级域名”、“不含一级域名”、“完整域名”和“不完整域名”等分类规则的推理，以及与其List下的“左侧”、“左右”、“包含”和“右侧”等分类知识的匹配；若数据清洗推理匹配成功，则对“URL清洗知识库”实时进行更新，将该访问记录页面从原始的“移动互联网访问记录”中清洗掉，即删除，数据清洗结束。若推理匹配失败，则数据清洗失败。对URL清洗知识库的更新，使系统变得越来聪明，不仅提高了清洗过滤的效率，更重要是提高了内容分类的覆盖面和准确程度。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】基于专家系统URL清洗知识库的“垃圾”内容过滤方法，属于海量大数据清洗、数据顾虑领域。本专利技术采用人工智能专家系统的方法，通过“完全URL”、“含一级域名”、“不含一级域名”、“完整域名”和“不完整域名”等分类规则的推理，以及与其List下的“左侧”、“左右”、“包含”和“右侧”等分类知识的匹配；若数据清洗推理匹配成功，则对“URL清洗知识库”实时进行更新，将该访问记录页面从原始的“移动互联网访问记录”中清洗掉，即删除，数据清洗结束。若推理匹配失败，则数据清洗失败。对URL清洗知识库的更新，使系统变得越来聪明，不仅提高了清洗过滤的效率，更重要是提高了内容分类的覆盖面和准确程度。【专利说明】基于专家系统URL清洗知识库的“垃圾”内容过滤方法
本专利技术属于数据清洗、数据过滤领域，特别是涉及到一个基于专家系统URL清洗知识库的移动互联网访问内容的“垃圾”过滤方法。
技术介绍
随着移动互联网的迅猛发展，特备是3G、4G互联网普及，原本只有专业和时尚人士上网变成草根屌丝们都能上网，带来了全民上网的信息化时代，造成信息爆炸。有效的组织管理好互联网信息，并从这些海量的大数据中快速、准确、全面的获取客户的兴趣特征，是对当今信息科学
的一大挑战。数据清洗技术，作为处理海量互联网文本数据的关键技术，可以解决电信运营商智能营销的问题，达到提高效率、降低成本、减少投诉、增加收益精细化运营的目的。中国移动、中国电/[目和中国联通二大运营商每天从固网(IP网)、移动互联网(2G、3G、4G)从DPI分光数据中获取的移动互联网访问数据规模，小者几亿条访...

【技术保护点】
基于专家系统URL清洗知识库的“垃圾”内容过滤方法，其特征在于，包括：（1）格式验证：完整性验证，即访问记录的核心字段是否包括用户ID，URL格式，访问时间，只要不包括其中一个字段，即为数据不完整，则清洗掉该条记录；一致性验证是验证用户ID、URL和访问时间格式是否规范，若不规范，则清洗掉该条记录；（2）“完全URL”垃圾清洗推理：从“URL清洗知识库”读取清洗知识，在完全URL特征的Hash散列表中，推理在原始的访问记录页面URL中是否存在“完全URL”为“垃圾”页面特征？若存在，执行步骤（7）推理；若不存在，则进行步骤（3）推理；（3）“含一级域名”垃圾清洗推理；从原始URL中截取“一级域名”，构造为特征容器包装类TSDL，在“一级域名”特征的Hash散列表中，推理是否存在TSDL为“垃圾”页面的特征。若存在“一级域名”，则进行步骤（5）推理；若不存在，则执行步骤（4）推理；（4）“不含一级域名”垃圾清洗推理：若不存在“一级域名”，则获取不含一级域名“垃圾”页面特征知识的List，在List中包括后缀、左侧、左右和包含四类匹配知识，按照知识特征的置信度降幂顺序进行匹配推理；若匹配成...

【技术特征摘要】

【专利技术属性】
技术研发人员：孙宏，赵晓波，季海东，董童霖，赵宇龙，
申请(专利权)人：辽宁四维科技发展有限公司，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人