网络资源内容洞察系统及方法技术方案

技术编号:14253798 阅读:66 留言:0更新日期:2016-12-22 16:14
本发明专利技术提供一种网络资源内容洞察系统及方法。本发明专利技术提供的系统,包括:开放接口模块、URL预处理模块、URL洞察库模块以及结果输出模块;开放接口模块接收目标URL;URL预处理模块判断目标URL的协议类型是否为目标协议类型;URL洞察库模块对目标协议类型的目标URL进行查询匹配,URL洞察库模块中被匹配中的参考URL对应的参考标引信息即为目标标引信息;结果输出模块输出目标标引信息。本发明专利技术通过URL洞察库模块存储参考URL和参考标引信息的对应关系,参考标引信息对应的标引范围为URL和目标文本本身,扩充了标引范围,实现了全面地对网络资源信息进行标引,从而提高了网络资源标引的准确率。

【技术实现步骤摘要】

本专利技术涉及网络标引技术,尤其涉及一种网络资源内容洞察系统及方法
技术介绍
互联网作为一种分布式的信息网络空间,已经成为全球范围内传播信息的主要渠道。随着大数据时代的到来,互联网上的信息呈指数级数增长,随之而产生的信息垃圾也越来越多,使得用户迫切地需要在海量信息中准确地、快速地搜索到符合自己要求的信息内容。目前通常利用计算机系统进行自动标引来检索网络资源信息。自动标引基于抽词思想,从目标文本中抽取关键词作为检索标志,根据关键词自动地在海量信息中进行检索,能够快速地获取用户需求的相关信息。自动标引基于抽词思想,标引范围往往仅限于目标文本本身,不能全面地对网络资源信息进行标引,导致网络资源标引的准确率不高。
技术实现思路
本专利技术提供的网络资源内容洞察系统及方法,将标引范围扩大到URL和目标文本本身,扩充了标引范围,可以全面地对网络资源信息进行标引,网络资源标引的准确率更高。第一方面,本专利技术提供一种网络资源内容洞察系统,包括:开放接口模块、URL预处理模块、URL洞察库模块以及结果输出模块;所述开放接口模块,用于接收目标URL,并将所述目标URL发送给所述URL预处理模块;所述URL预处理模块,用于判断所述目标URL的协议类型是否为目标协议类型,若是,则将所述目标URL发送给所述URL洞察库模块;所述URL洞察库模块,用于对所述目标URL进行查询匹配,所述URL洞察库模块包括参考URL和参考标引信息的对应关系,若所述目标URL与所述URL洞察库模块中的一个参考URL匹配成功,则将所述参考URL对应的参考标引信息作为目标标引信息发送给所述结果输出模块;所述结果输出模块,用于输出所述目标标引信息。进一步地,所述网络资源内容洞察系统,还包括:域名处理模块、URI处理模块、参数处理模块、内容感知分析模块、分析结果整合模块以及标引规则库模块;相应地,所述URL预处理模块还用于:若所述目标URL与任一参考URL不匹配,则将所述目标URL拆分成域名、URI、参数三部分,并将所述域名、所述URI、所述参数以及所述目标URL分别发送给所述域名处理模块、所述URI处理模块、所述参数处理模块以及所述内容感知分析模块;所述域名处理模块,用于轮询所述域名,获取所述域名的关键词作为第一标引关键词,并将所述第一标引关键词在所述标引规则库模块中进行匹配,所述标引规则库模块包括参考标引关键词和参考标引信息的对应关系,若所述第一标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第一标引信息发送给所述分析结果整合模块;所述URI处理模块,用于轮询所述URI,获取所述URI的关键词作为第二标引关键词,并将所述第二标引关键词在所述标引规则库模块中进行匹配,若所述第二标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第二标引信息发送给所述分析结果整合模块;所述参数处理模块,用于轮询所述参数,获取所述参数的关键词作为第三标引关键词,并将所述第三标引关键词在所述标引规则库模块中进行匹配,若所述第三标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第三标引信息发送给所述分析结果整合模块;所述内容感知分析模块,用于分析所述URL指向的网页内容,获取所述网页内容的关键词作为第四标引关键词,并通过所述第四标引关键词进行标引,获取第四标引信息,并将所述第四标引信息发送给所述分析结果整合模块;所述分析结果整合模块,用于将所述第一标引信息、所述第二标引信息、所述第三标引信息以及所述第四标引信息进行组合,生成所述目标标引信息,并将所述目标标引信息发送给所述结果输出模块。可选地,所述分析结果整合模块,还用于:在生成所述目标标引信息之后,将所述目标URL和所述目标标引信息写入所述URL洞察库模块。可选地,所述域名处理模块,还用于:若所述第一标引关键词与任一参考标引关键词不匹配,则将第一计数加一;若所述第一计数大于第一预设阈值,则根据所述第一标引关键词进行标引,获取所述第一标引信息,并将所述第一标引关键词和所述第一标引信息写入所述标引规则库模块。可选地,所述URI处理模块,还用于:若所述第二标引关键词与任一参考标引关键词不匹配,则将第二计数加一;若所述第二计数大于第二预设阈值,则根据所述第二标引关键词进行标引,获取所述第二标引信息,并将所述第二标引关键词和所述第二标引信息写入所述标引规则库模块。可选地,所述参数处理模块,还用于:若所述第三标引关键词与任一参考标引关键词不匹配,则将第三计数加一;若所述第三计数大于第三预设阈值,则根据所述第三标引关键词进行标引,获取所述第三标引信息,并将所述第三标引关键词和所述第三标引信息写入所述标引规则库模块。优选的,所述URL预处理模块还用于:在将所述目标URL发送给所述URL洞察库模块之前,将所述目标URL转码成固定长度的目标字符串,对所述目标字符串进行查询匹配;相应地,所述URL洞察库模块还包括参考字符串和参考标引信息的对应关系,若所述目标字符串与所述URL洞察库模块中的一个参考字符串匹配成功,则将所述参考字符串对应的参考标引信息作为目标标引信息发送给所述结果输出模块。第二方面,本专利技术提供一种网络资源内容洞察方法,包括:接收目标URL,并将所述目标URL发送给所述URL预处理模块;判断所述目标URL的协议类型是否为目标协议类型,若是,则将所述目标URL发送给所述URL洞察库模块;对所述目标URL进行查询匹配,所述URL洞察库模块包括参考URL和参考标引信息的对应关系,若所述目标URL与所述URL洞察库模块中的一个参考URL匹配成功,则将所述参考URL对应的参考标引信息作为目标标引信息发送给所述结果输出模块;输出所述目标标引信息。进一步地,所述的网络资源内容洞察方法,还包括:若所述目标URL与任一参考URL不匹配,则将所述目标URL拆分成域名、URI、参数三部分,并将所述域名、所述URI、所述参数以及所述目标URL分别发送给所述域名处理模块、所述URI处理模块、所述参数处理模块以及所述内容感知分析模块;轮询所述域名,获取所述域名的关键词作为第一标引关键词,并将所述第一标引关键词在所述标引规则库模块中进行匹配,所述标引规则库模块包括参考标引关键词和参考标引信息的对应关系,若所述第一标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第一标引信息发送给所述分析结果整合模块;轮询所述URI,获取所述URI的关键词作为第二标引关键词,并将所述第二标引关键词在所述标引规则库模块中进行匹配,若所述第二标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第二标引信息发送给所述分析结果整合模块;轮询所述参数,获取所述参数的关键词作为第三标引关键词,并将所述第三标引关键词在所述标引规则库模块中进行匹配,若所述第三标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第三标引信息发送给所述分析结果整合模块;分析所述URL指向的本文档来自技高网...
网络资源内容洞察系统及方法

【技术保护点】
一种网络资源内容洞察系统,其特征在于,包括:开放接口模块、URL预处理模块、URL洞察库模块以及结果输出模块;所述开放接口模块,用于接收目标URL,并将所述目标URL发送给所述URL预处理模块;所述URL预处理模块,用于判断所述目标URL的协议类型是否为目标协议类型,若是,则将所述目标URL发送给所述URL洞察库模块;所述URL洞察库模块,用于对所述目标URL进行查询匹配,所述URL洞察库模块包括参考URL和参考标引信息的对应关系,若所述目标URL与所述URL洞察库模块中的一个参考URL匹配成功,则将所述参考URL对应的参考标引信息作为目标标引信息发送给所述结果输出模块;所述结果输出模块,用于输出所述目标标引信息。

【技术特征摘要】
1.一种网络资源内容洞察系统,其特征在于,包括:开放接口模块、URL预处理模块、URL洞察库模块以及结果输出模块;所述开放接口模块,用于接收目标URL,并将所述目标URL发送给所述URL预处理模块;所述URL预处理模块,用于判断所述目标URL的协议类型是否为目标协议类型,若是,则将所述目标URL发送给所述URL洞察库模块;所述URL洞察库模块,用于对所述目标URL进行查询匹配,所述URL洞察库模块包括参考URL和参考标引信息的对应关系,若所述目标URL与所述URL洞察库模块中的一个参考URL匹配成功,则将所述参考URL对应的参考标引信息作为目标标引信息发送给所述结果输出模块;所述结果输出模块,用于输出所述目标标引信息。2.根据权利要求1所述的系统,其特征在于,还包括:域名处理模块、URI处理模块、参数处理模块、内容感知分析模块、分析结果整合模块以及标引规则库模块;相应地,所述URL预处理模块还用于:若所述目标URL与任一参考URL不匹配,则将所述目标URL拆分成域名、URI、参数三部分,并将所述域名、所述URI、所述参数以及所述目标URL分别发送给所述域名处理模块、所述URI处理模块、所述参数处理模块以及所述内容感知分析模块;所述域名处理模块,用于轮询所述域名,获取所述域名的关键词作为第一标引关键词,并将所述第一标引关键词在所述标引规则库模块中进行匹配,所述标引规则库模块包括参考标引关键词和参考标引信息的对应关系,若所述第一标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第一标引信息发送给所述分析结果整合模块;所述URI处理模块,用于轮询所述URI,获取所述URI的关键词作为第二标引关键词,并将所述第二标引关键词在所述标引规则库模块中进行匹配,若所述第二标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第二标引信息发送给所述分析结果整合模块;所述参数处理模块,用于轮询所述参数,获取所述参数的关键词作为第三标引关键词,并将所述第三标引关键词在所述标引规则库模块中进行匹配,若所述第三标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第三标引信息发送给所述分析结果整合模块;所述内容感知分析模块,用于分析所述URL指向的网页内容,获取所述网页内容的关键词作为第四标引关键词,并通过所述第四标引关键词进行标引,获取第四标引信息,并将所述第四标引信息发送给所述分析结果整合模块;所述分析结果整合模块,用于将所述第一标引信息、所述第二标引信息、所述第三标引信息以及所述第四标引信息进行组合,生成所述目标标引信息,并将所述目标标引信息发送给所述结果输出模块。3.根据权利要求2所述的系统,其特征在于,所述分析结果整合模块,还用于:在生成所述目标标引信息之后,将所述目标URL和所述目标标引信息写入所述URL洞察库模块。4.根据权利要求2所述的系统,其特征在于,所述域名处理模块,还用于:若所述第一标引关键词与任一参考标引关键词不匹配,则将第一计数加一;若所述第一计数大于第一预设阈值,则根据所述第一标引关键词进行标引,获取所述第一标引信息,并将所述第一标引关键词和所述第一标引信息写入所述标引规则库模块。5.根据权利要求2所述的系统,其特征在于,所述URI处理模块,还用于:若所述第二标引关键词与任一参考标引关键词不匹配,则将第二计数加一...

【专利技术属性】
技术研发人员:鄂海红宋美娜凌豪然胡莺夕
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1