可扩展的智能化互联网索引系统技术方案

技术编号:2844919 阅读:237 留言:0更新日期:2012-04-11 18:40
为解决目前互联网检索存在的不足,本发明专利技术提供一种可扩展的智能化互联网索引系统;该系统由基础层、功能层、逻辑层和数据文件软件模块构成,按照一定顺序获取互联网上的内容;清洗获取的内容:分析清洗过的内容,获得能代表该内容意义的表达式;根据内容和表达式对内容进行关键词提取,根据内容和表达式对内容进行摘要,根据内容和表达式对内容进行分类;根据内容和表达式对内容进行聚类,将内容集合聚集成指定个数的簇,或将内容与已经形成的簇进行对比;将内容提交给传感器检测;本发明专利技术优点是:通用性,智能性和扩展性,适用于各种网络索引需求,并可通过调整或更换添加部件来实现更多的功能。

【技术实现步骤摘要】

本专利技术涉及对互联网资源进行自动收集和建立索引的机制,特别涉及一种可扩展的智能化互联网索引系统
技术介绍
随着互联网上信息的增长,人们越来越重视对互联网上信息的索引,进而才能实现高效的查询和检索。互联网(Internet)包含了万维网(WWW)和局域网等,有多种通讯协议(如HTTP、FTP、文件等)和多种类型的内容(如Web页面、文件、音乐、电影等)。常见的Web搜索引擎(如Google、Baidu等)实现了一种对万维网页面内容的全文文本索引,并提供该索引的查询服务。对互联网进行索引通常需要以下几个步骤1,获取互联网上的内容;2,解析出内容中的文本;3,对内容中的文本建立全文索引。对索引的查询则基于对全文索引的字符匹配技术。常见的搜索引擎以网络爬虫软件来完成获取内容的过程,网络爬虫(Crawler)是一种在网络上对分布式资源进行自动收集的软件,主要应用在以下几个方面 为搜索引擎对万维网上的网页资源进行索引提供网页来源;协助特定用户收集特定的网页集;协助人们进行对互联网现状的进行统计分析,等等;随着社会的发展和技术的进步,人们对互联网检索提出了更高的要求,例如需要一种能根据搜索结果自动聚合话题的搜索系统、一种能够对企业局域网内分布的各种文件进行检索的系统、一种能够将内容自动分类的搜索系统等。然而,目前的搜索引擎和其他软件产品都不能很好的满足这些需求,因此专利技术一种智能的互联网索引系统是当前需要的。
技术实现思路
本专利技术的目的是解决前述互联网检索存在的不足,提供一种可扩展的智能化互联网索引系统。该系统由基础层、功能层、逻辑层和数据文件构成,其中基础层设置有存储器、算法器和事件捕获器;功能层有传感器、解折器、清洗器和下载器;逻辑层有网络爬虫器、搜索器和索引器。存储器用于存放如下信息的全部或部分获取内容的原始信息、清洗过的内容、代表该内容意义的表达式、内容的关键词、内容的摘要、内容的分类信息、内容的聚类信息、传感器的记录、附加信息(更新时间、链接数量等)和索引信息。存储器可以基于任何一种文件系统、数据系统或其他存储媒体。算法库提供了该方法所需要的所有算法的实现,其中包括中文自然语言理解方面的算法,如分类器、聚类器、关键词提取器、摘要器等。事件监控器负责监控和记录所有系统事件、错误。下载器自动选择合适的协议获取内容。清洗器对内容进行清洗,包括去除重复内容、清除可能存在的广告、去掉无用的内容等。解析器分析清洗过的内容,获得能代表该内容意义的表达式,该表达式可能是但不仅限于解析出的文本;对图形、音乐或影片提取的特征集合。传感器是对特定内容做出反应的部件。索引器是内容进行索引的部件。网络爬虫是网络内容进行收集的程序。搜索器,接受查询请求返回搜索结果的部件。根据基础层、功能层、逻辑层软件结构,本专利技术的索引方法是(1)有内容需要处理?若没有,则结束;(2)若有内容要处理,则获取内容;(3)检该查内容是否更新?若未更新,则计算下次更新时间;(4)若该内容已更新,则清洗该内容;(5)解折该内容;(6)提取关键词;(7)提取摘要;(8)自动分类; (9)自动聚类;(10)传感器检测;(11)计算下次更新时间;(12)存储内容及附加信息;(13)添加或更新索引;(14)等待指定时间;(15)返回到(1)。其中获取需要处理的内容方法是(1)得到待获取内容的URI;(2)分折URI,先择合适的下载器;(3)选择HTTP下载器、FTP下载器、文件下载器或扩展下载器;(4)下载并保存内容的全部或部份;(5)结束。其中解折内容的方法是(1)得到待清洗的内容;(2)根据内容类型选择合适的分折器;(3)选择HTML分折器、WORD分折器、PDF分折器或扩展分折器;(4)根据分折器,分别去除HTML标签获取Title内容、去除Word格式信息,获取正文、提取PDF文本内容或清除无用信息获取内容表达式;(5)将内容切分词语; (6)结束。其中提取关键词的方法是(1)得到内容的词语切分形式;(2)对词语出现次数进行统计;(3)去掉出现次数过高的和过低的词语;(4)根据词表对每个词语进行打分;(5)将得分最高的若干个词语作为该内容关键词。其中提取内容摘要的方法是(1)得到内容的词语切分形式;(2)取出包含关键词的句子;(3)对每个句子中的所有词语打分;(4)将句子中所有词语的总分作为该句子的得分;(5)将所有句子按照得分从高到低排序;(6)将第一个句子输出作为摘要;(7)摘要字数达到要求?若是,则结束;(8)若不是,将下一个句子添加到摘要。其中自动分类的工作方法是(1)得到待分类的内容;(2)提取该内容的分类特征;(3)对比已有分类的特征,找到匹配的所有分类;(4)输出匹配的分类;(5)结束。其中聚类器的工作方法是(1)得到待聚类的内容的词语切分形式;(2)据词表将该内容矢量化;(3)找到与簇中心矢量夹角最小且夹角超过最小值的已有簇;(4)有夹角超过最小值的已有簇?(5)若是,加入该簇并更新该簇的中心;(6)若不是,创建新簇,并以该内容的矢量作为该簇中心;(7)结束。其中对传感器进行检测的方法是(1)得到待传感器检测的内容;(2)将内容送达每个传感器;(3)关键词传感器1、关键词传感器2、相似内容传感器或扩展传感器;(4)对于关键词传感器,如果包含指定关键词则警报;(5)如果包含指定关键词则警报;(6)对于相似内容传达室感受器,为相似内容则警报;(7)对于其他传达室感器,满足警报条件则发出警报;(8)汇总警报输出;(9)结束。其中对内容建立或更新索引的工方法是(1)得到待索引内容的词语切分形式;(2)建立该内容的Term列表; (3)建立该内容与这些Term的映射关系;(4)保存或更新Term及映射关系(5)结束。其中查询索引的方法是(1)得到待检索的查询请求;(2)将查询请求分解为Term;(3)根据Term与内容的映射关系找到相关内容;(4)输出符合要求的内容(5)结束。一般通过建立的索引来查询符合条件的内容,该过程包含如下几个步骤的全部或部分1.按照一定顺序获取互联网上的内容;2.清洗获取的内容包括去除重复内容、清除可能存在的广告、去掉无用的内容等;3.分析清洗过的内容,获得能代表该内容意义的表达式,该表达式可能是但不仅限于解析出的文本;对图形、音乐或影片提取的特征集合;4.根据内容和表达式对内容进行关键词提取,取出指定个数的关键词;5.根据内容和表达式对内容进行摘要,获取较为简短的摘要性内容;6.根据内容和表达式对内容进行分类,如果该分类代表一个话题或主题,则表示该内容属于此话题或主题; 7.根据内容和表达式对内容进行聚类,将内容集合聚集成指定个数的簇,或将内容与已经形成的簇进行对比,加入某个簇或形成新的簇;8.将内容提交给传感器检测;9.对内容进行评价并决定下一次检查是否更新的时间;10.存储内容及附加信息(包括关键词、主题、簇、传感器输出等);11.为内容建立索引;12.在一定时间后检查内容是否发生了变化并更新存储的内容、索引及附加信息;本专利技术的扩展性体现在如下几个方面算法库中的算法可以定制并在运行时改变;存储器可以定制并在运行时改变,以适应各种存储需求,如文件、数据库等;事件捕获器可以定制并在运行时改变,可以将事件本文档来自技高网...

【技术保护点】
一种可扩展的智能化互联网索引系统,其特征在于:该系统由基础层、功能层、逻辑层和数据文件构成,其中:基础层设置有存储器、算法器和事件监控器;功能层有传感器、解折器、清洗器和下载器;逻辑层有网络爬虫器、搜索器和索引器构成。

【技术特征摘要】
1.一种可扩展的智能化互联网索引系统,其特征在于该系统由基础层、功能层、逻辑层和数据文件构成,其中基础层设置有存储器、算法器和事件监控器;功能层有传感器、解折器、清洗器和下载器;逻辑层有网络爬虫器、搜索器和索引器构成。2.按权利要求1所述的可扩展的智能化互联网索引系统的索引方法,其特征在于该方法的步骤是(1)有内容需要处理?若没有,则结束;(2)若有内容要处理,则获取内容;(3)检该查内容是否更新?若未更新,则计算下次更新时间;(4)若该内容已更新,则清洗该内容;(5)解折该内容;(6)提取关键词;(7)提取摘要;(8)自动分类;(9)自动聚类;(10)传感器检测;(11)计算下次更新时间;(12)存储内容及附加信息;(13)添加或更新索引;(14)等待指定时间;(15)返回到(1)。3.按权利要求2所述的可扩展的智能化互联网索引系统的索引方法,其特征在于获取需要处理的内容步骤是(1)得到待获取内容的URI;(2)分折URI,先择合适的下载器;(3)选择HTTP下载器、FTP下载器、文件下载器或扩展下载器;(4)下载并保存内容的全部或部份;(5)结束。4.按权利要求2所述的可扩展的智能化互联网索引系统的索引方法,其特征在于解折内容的步骤是(1)得到待清洗的内容;(2)根据内容类型选择合适的分折器;(3)选择HTML分折器、WORD分折器、PDF分折器或扩展分折器;(4)根据分折器,分别去除HTML标签获取Title内容、去除Word格式信息,获取正文、提取PDF文本内容或清除无用信息获取内容表达式;(5)将内容切分词语;(6)结束。5.按权利要求2所述的可扩展的智能化互联网索引系统的索引方法,其特征在于提取关键词的步骤是(1)得到内容的词语切分形式;(2)对词语出现次数进行统计;(3)去掉出现次数过高的和过低的词语;(4)根据词表对每个词语进行打分;(5)将得分最高的若干个词语作为该内容关键词。6.按权利要求2所述的可扩展的智能化互联网索引系统的索引方法,其特征在于提取内容摘要的步骤是(1)得到内容的词语切分形式;(2...

【专利技术属性】
技术研发人员:邱致中沈超
申请(专利权)人:上海态格文化传播有限公司
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1