一种专利领域的垂直搜索引擎制造技术

技术编号:16238121 阅读:20 留言:0更新日期:2017-09-21 19:42
本发明专利技术设计并实现了一种专利领域的垂直搜索引擎。专利垂直搜索系统是在专利领域应用垂直搜索的理念和技术,面向互联网中为数不多的专利权威网站,对它们的专利信息资源进行抓取、分析、整合,最后给专利相关工作者提供专业的专利搜索以及聚类可视化分析服务。专利信息绝大部分集中在少数几个专利站点,所以只需要对这些特定的专利站点进行采集,就能满足绝大多数用户的需求。采集对象的有限性和针对性,可以很好的提高采集的效率和准确率,而且信息的及时更新也可以得到保证。对聚类结果进行可视化能使用户更加直观形象地理解聚类得到的信息,了解数据之间的相互关系及发展趋势,从更高的层次对数据进行更深入的观察和分析。

A vertical search engine in the patent domain

The invention designs and implements a vertical search engine in the patent field. Patent vertical search system is in the patent application of vertical search technology and the concept of the Internet, for the number of patent authority website, for patent information resources of their capture, analysis, integration, finally to patent related workers provide professional patent search and Clustering Visualization Analysis services. Most of the patent information is concentrated on a few patent sites, so it is only necessary to collect these specific patent sites, which can meet the needs of the vast majority of users. The limited and pertinence of the acquisition object can improve the collection efficiency and accuracy, and the timely updating of the information can also be guaranteed. The clustering result makes users more intuitive image of geographic information visualization can be thecluster, understand the relationship between the data and the trend of development, from a higher level of observation and in-depth analysis of data.

【技术实现步骤摘要】

本专利技术涉及搜索引擎技术,特别是一种针对专利领域的垂直搜索引擎。
技术介绍
随着Internet的迅猛发展和Web信息的增加,从海量级的网络信息资源中快速准确地获取信息就显得越来越困难,也变得越来越重要。搜索引擎就是在这样的背景下出现的技术,它整合了互联网上的网页资源,并提供信息导航和信息查询服务,在很大程度上解决了人们在互联网上查找和定位信息的瓶颈问题。但是,目前的通用搜索引擎在使用中也面临着许多问题。Web上的信息量十分庞大,通用搜索引擎试图对Web进行整体信息的抓取,在硬件资源和网络资源方面的代价将是十分巨大的。而事实上,许多页面的使用几率很小,这就存在着一个极大的信息资源的存储浪费问题。另外,Web页面的动态变化使得网页数据在抓取到的那一刻起就面临着过时的风险,为了降低这种风险,需要不停地对己提取的Web信息重新提取以保持对数据的更新。随着Web信息规模上的急剧增长,面向整体Web信息提取中的刷新问题变得异常的尖锐。尽管可以通过不断地提高单机性能,使用分布式计算技术增加系统的并行能力,设计新型算法以优化刷新策略,但是Web信息的刷新问题的解决还远不能令人满意,许多大型通用搜索引擎刷新一次Web数据需要几周甚至几个月的时间。垂直搜索引擎正是针对通用搜索引擎的信息量大、查询不准确、深度不够等问题提出来的新的搜索引擎服务模式。垂直搜索在Web信息采集过程中根据主题性决定页面的取舍,使绝大部分与主题无关的页面被舍弃掉,这样做的目的使得采集到的页面有着较高的利用率,也极大地节省了资源的消耗。另外,对于垂直搜索的Web信息提取而言,Web信息的刷新问题相对容易处理。随着提取页面数量的大幅度降低,就可以缩短页面的刷新周期,从而使得数据过时的风险也随之降低。专利垂直搜索系统是在专利领域应用垂直搜索的理念和技术,面向互联网中为数不多的专利权威网站,对它们的专利信息资源进行抓取、分析、整合,最后给专利相关工作者提供专业的专利搜索以及聚类可视化分析服务。专利工作者的主要需求有:一是可以按不同的专利字段搜索专利信息;二是可以根据不同字段的组合关系检索满足条件的专利,如and、or关系;三是可以对专利检索结果动态聚类,以方便从整体上对专利进行挖掘分析。
技术实现思路
为更好的满足用户的要求,本专利技术要设计并实现一种针对专利领域的垂直搜索引擎。为了实现上述目的,本专利技术的技术方案如下:一种专利领域的垂直搜索引擎,包括以下步骤:A、专利信息采集信息采集模块的主要功能是通过网络蜘蛛技术抓取专利领域的网页并存储到本地。垂直网络蜘蛛主要包括主题确定、网页采集、链接分析、内容分析和相关性分析五个模块。A1、主题确定主题确定模块主要解决初始种子URL的选取及主题特征的提取。初始种子URL,并通过程序收集一定数目的专利网页作为训练集合,经中文分词处理后,确定相应的主题特征词,用于后续的主题相关度分析。A2、网页采集网络蜘蛛采用多线程技术,从URL队列中获取输入数据,向该URL对应的Web服务器发出下载请求,采集到的页面由后续模块做进一步的处理。A3、链接分析对于采集到的网页,分析并尽可能多地提取出其中的链接。页面链接的URL一般是多种格式的,可能是完整路径,也可能是相对路径,必须对它们进行处理转换得到统一标准格式的完整URL,然后调用相关性分析模块决定URL的取舍,对于满足条件的URL插入到URL队列中。A4、内容分析对于采集到的网页,分析网页文本信息,包括过滤HTML标签、网页内容文本提取、切词,提取其中的特征项。A5、相关性分析主题相关性分析模块通过向量空间模型计算网页向量与主题特征向量之间的相似度。以此决定网页的取舍以及URL在候选队列中的优先级顺序。B、专利信息抽取首先,对目标网页进行分析,确定待抽取的元数据并分析其对应的HTML代码特点。然后,根据待抽取元数据在网页中对应的代码特点制定相应的抽取规则,抽取规则的制定要保证对待抽取数据匹配的唯一性。最后,对抽取后的结构化数据进行整合处理,确保数据库中专利信息的一致性和完整性。C、专利信息检索C1、建立索引文件通过接口调用Lucene的索引模块,实现对数据库中的信息建立索引。首先从数据库中提取出要索引的文本,将文本组织成一个Document类型的对象。由分析器对文本进行分析,针对中文文本主要需要实现的是中文分词。文本分析后,索引生成模块把预处理后的文档加入到索引文件中,包括统计每个词在文档中出现的次数、出现的位置等相关信息,将这些信息存储在索引文件中。C2、专利搜索首先对用户输入的搜索关键词进行切词,然后从索引文件中查找包含切分出的每个词的文档并对这些文档集进行汇总,得到最终的结果集。如果结果集中的文档数大于零,则对检索结果按照相关度排序,并对首页显示的结果进行关键词高亮显示后返回给用户,并对当前的检索结果进行缓存处理。D、聚类可视化首先对检索模块返回的搜索结果进行数据预处理,主要是去除中文停用词和非词的标记,然后对处理后的文本字符串生成一颗后缀树,通过后缀树识别短语类进行聚类,对短语类处理合并后生成最终的聚类结果,最后对聚类结果进行可视化表示。与现有技术相比,本专利技术具有以下有益效果:1、专利信息绝大部分集中在少数几个专利站点,所以只需要对这些特定的专利站点进行采集,就能满足绝大多数用户的需求。采集对象的有限性和针对性,可以很好的提高采集的效率和准确率,而且信息的及时更新也可以得到保证。2、对聚类结果进行可视化能使用户更加直观形象地理解聚类得到的信息,了解数据之间的相互关系及发展趋势,从更高的层次对数据进行更深入的观察和分析。具体实施方式A、专利信息采集信息采集模块的主要功能是通过网络蜘蛛技术抓取专利领域的网页并存储到本地。垂直网络蜘蛛主要包括主题确定、网页采集、链接分析、内容分析和相关性分析五个模块。以中华人民共和国国家知识产权局站点作为初始种子URL,其中包含着大量的专利信息资源,但是通过分析发现该站点的专利数据是动态生成的,而且采用的是Javascript分页方式,导致不同专利数据页面的URL相同,因此一般的网络蜘蛛抓取不到分页后的专利页面。针对这种分页方式的Web站点,本专利通过分析该站点的HTML代码,采用网络蜘蛛模拟填写表单并自动提交的方式抓取分页后的专利数据信息。B、本文档来自技高网
...

【技术保护点】
一种专利领域的垂直搜索引擎,其特征在于:包括以下步骤:A、专利信息采集信息采集模块的主要功能是通过网络蜘蛛技术抓取专利领域的网页并存储到本地;垂直网络蜘蛛主要包括主题确定、网页采集、链接分析、内容分析和相关性分析五个模块;A1、主题确定主题确定模块主要解决初始种子URL的选取及主题特征的提取;初始种子URL,并通过程序收集一定数目的专利网页作为训练集合,经中文分词处理后,确定相应的主题特征词,用于后续的主题相关度分析;A2、网页采集网络蜘蛛采用多线程技术,从URL队列中获取输入数据,向该URL对应的Web服务器发出下载请求,采集到的页面由后续模块做进一步的处理;A3、链接分析对于采集到的网页,分析并尽可能多地提取出其中的链接;页面链接的URL一般是多种格式的,可能是完整路径,也可能是相对路径,必须对它们进行处理转换得到统一标准格式的完整URL,然后调用相关性分析模块决定URL的取舍,对于满足条件的URL插入到URL队列中;A4、内容分析对于采集到的网页,分析网页文本信息,包括过滤HTML标签、网页内容文本提取、切词,提取其中的特征项;A5、相关性分析主题相关性分析模块通过向量空间模型计算网页向量与主题特征向量之间的相似度;以此决定网页的取舍以及URL在候选队列中的优先级顺序;B、专利信息抽取首先,对目标网页进行分析,确定待抽取的元数据并分析其对应的HTML代码特点;然后,根据待抽取元数据在网页中对应的代码特点制定相应的抽取规则,抽取规则的制定要保证对待抽取数据匹配的唯一性;最后,对抽取后的结构化数据进行整合处理,确保数据库中专利信息的一致性和完整性;C、专利信息检索C1、建立索引文件通过接口调用Lucene的索引模块,实现对数据库中的信息建立索引;首先从数据库中提取出要索引的文本,将文本组织成一个Document类型的对象;由分析器对文本进行分析,针对中文文本主要需要实现的是中文分词;文本分析后,索引生成模块把预处理后的文档加入到索引文件中,包括统计每个词在文档中出现的次数、出现的位置等相关信息,将这些信息存储在索引文件中;C2、专利搜索首先对用户输入的搜索关键词进行切词,然后从索引文件中查找包含切分出的每个词的文档并对这些文档集进行汇总,得到最终的结果集;如果结果集中的文档数大于零,则对检索结果按照相关度排序,并对首页显示的结果进行关键词高亮显示后返回给用户,并对当前的检索结果进行缓存处理;D、聚类可视化首先对检索模块返回的搜索结果进行数据预处理,主要是去除中文停用词和非词的标记,然后对处理后的文本字符串生成一颗后缀树,通过后缀树识别短语类进行聚类,对短语类处理合并后生成最终的聚类结果,最后对聚类结果进行可视化表示。...

【技术特征摘要】
1.一种专利领域的垂直搜索引擎,其特征在于:包括以下步骤:
A、专利信息采集
信息采集模块的主要功能是通过网络蜘蛛技术抓取专利领域的网页并存储
到本地;垂直网络蜘蛛主要包括主题确定、网页采集、链接分析、内容分析和
相关性分析五个模块;
A1、主题确定
主题确定模块主要解决初始种子URL的选取及主题特征的提取;初始种子
URL,并通过程序收集一定数目的专利网页作为训练集合,经中文分词处理后,
确定相应的主题特征词,用于后续的主题相关度分析;
A2、网页采集
网络蜘蛛采用多线程技术,从URL队列中获取输入数据,向该URL对应
的Web服务器发出下载请求,采集到的页面由后续模块做进一步的处理;
A3、链接分析
对于采集到的网页,分析并尽可能多地提取出其中的链接;页面链接的URL
一般是多种格式的,可能是完整路径,也可能是相对路径,必须对它们进行处
理转换得到统一标准格式的完整URL,然后调用相关性分析模块决定URL的取
舍,对于满足条件的URL插入到URL队列中;
A4、内容分析
对于采集到的网页,分析网页文本信息,包括过滤HTML标签、网页内容
文本提取、切词,提取其中的特征项;
A5、相关性分析
主题相关性分析模块通过向量空间模型计算网页向量与主题特征向量之间
的相似度;以此决定网页的取舍以及URL在候选队列中的优先级顺序;
B、专利信息抽取
首先,...

【专利技术属性】
技术研发人员:苏晓华刘立堂
申请(专利权)人:大连灵动科技发展有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1