The invention designs and implements a vertical search engine in the patent field. Patent vertical search system is in the patent application of vertical search technology and the concept of the Internet, for the number of patent authority website, for patent information resources of their capture, analysis, integration, finally to patent related workers provide professional patent search and Clustering Visualization Analysis services. Most of the patent information is concentrated on a few patent sites, so it is only necessary to collect these specific patent sites, which can meet the needs of the vast majority of users. The limited and pertinence of the acquisition object can improve the collection efficiency and accuracy, and the timely updating of the information can also be guaranteed. The clustering result makes users more intuitive image of geographic information visualization can be thecluster, understand the relationship between the data and the trend of development, from a higher level of observation and in-depth analysis of data.
【技术实现步骤摘要】
本专利技术涉及搜索引擎技术,特别是一种针对专利领域的垂直搜索引擎。
技术介绍
随着Internet的迅猛发展和Web信息的增加,从海量级的网络信息资源中快速准确地获取信息就显得越来越困难,也变得越来越重要。搜索引擎就是在这样的背景下出现的技术,它整合了互联网上的网页资源,并提供信息导航和信息查询服务,在很大程度上解决了人们在互联网上查找和定位信息的瓶颈问题。但是,目前的通用搜索引擎在使用中也面临着许多问题。Web上的信息量十分庞大,通用搜索引擎试图对Web进行整体信息的抓取,在硬件资源和网络资源方面的代价将是十分巨大的。而事实上,许多页面的使用几率很小,这就存在着一个极大的信息资源的存储浪费问题。另外,Web页面的动态变化使得网页数据在抓取到的那一刻起就面临着过时的风险,为了降低这种风险,需要不停地对己提取的Web信息重新提取以保持对数据的更新。随着Web信息规模上的急剧增长,面向整体Web信息提取中的刷新问题变得异常的尖锐。尽管可以通过不断地提高单机性能,使用分布式计算技术增加系统的并行能力,设计新型算法以优化刷新策略,但是Web信息的刷新问题的解决还远不能令人满意,许多大型通用搜索引擎刷新一次Web数据需要几周甚至几个月的时间。垂直搜索引擎正是针对通用搜索引擎的信息量大、查询不准确、深度不够等问题提出来的新的搜索引擎服务模式。垂直搜索在Web信息采集过程中根据主题性决定页面的取舍,使绝大部分与 ...
【技术保护点】
一种专利领域的垂直搜索引擎,其特征在于:包括以下步骤:A、专利信息采集信息采集模块的主要功能是通过网络蜘蛛技术抓取专利领域的网页并存储到本地;垂直网络蜘蛛主要包括主题确定、网页采集、链接分析、内容分析和相关性分析五个模块;A1、主题确定主题确定模块主要解决初始种子URL的选取及主题特征的提取;初始种子URL,并通过程序收集一定数目的专利网页作为训练集合,经中文分词处理后,确定相应的主题特征词,用于后续的主题相关度分析;A2、网页采集网络蜘蛛采用多线程技术,从URL队列中获取输入数据,向该URL对应的Web服务器发出下载请求,采集到的页面由后续模块做进一步的处理;A3、链接分析对于采集到的网页,分析并尽可能多地提取出其中的链接;页面链接的URL一般是多种格式的,可能是完整路径,也可能是相对路径,必须对它们进行处理转换得到统一标准格式的完整URL,然后调用相关性分析模块决定URL的取舍,对于满足条件的URL插入到URL队列中;A4、内容分析对于采集到的网页,分析网页文本信息,包括过滤HTML标签、网页内容文本提取、切词,提取其中的特征项;A5、相关性分析主题相关性分析模块通过向量空间模型计 ...
【技术特征摘要】
1.一种专利领域的垂直搜索引擎,其特征在于:包括以下步骤:
A、专利信息采集
信息采集模块的主要功能是通过网络蜘蛛技术抓取专利领域的网页并存储
到本地;垂直网络蜘蛛主要包括主题确定、网页采集、链接分析、内容分析和
相关性分析五个模块;
A1、主题确定
主题确定模块主要解决初始种子URL的选取及主题特征的提取;初始种子
URL,并通过程序收集一定数目的专利网页作为训练集合,经中文分词处理后,
确定相应的主题特征词,用于后续的主题相关度分析;
A2、网页采集
网络蜘蛛采用多线程技术,从URL队列中获取输入数据,向该URL对应
的Web服务器发出下载请求,采集到的页面由后续模块做进一步的处理;
A3、链接分析
对于采集到的网页,分析并尽可能多地提取出其中的链接;页面链接的URL
一般是多种格式的,可能是完整路径,也可能是相对路径,必须对它们进行处
理转换得到统一标准格式的完整URL,然后调用相关性分析模块决定URL的取
舍,对于满足条件的URL插入到URL队列中;
A4、内容分析
对于采集到的网页,分析网页文本信息,包括过滤HTML标签、网页内容
文本提取、切词,提取其中的特征项;
A5、相关性分析
主题相关性分析模块通过向量空间模型计算网页向量与主题特征向量之间
的相似度;以此决定网页的取舍以及URL在候选队列中的优先级顺序;
B、专利信息抽取
首先,...
【专利技术属性】
技术研发人员:苏晓华,刘立堂,
申请(专利权)人:大连灵动科技发展有限公司,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。