当前位置: 首页 > 专利查询>刘挺专利>正文

一种新型可排序反爬虫多领域垂直搜索网站的设计方法技术

技术编号:15840440 阅读:36 留言:0更新日期:2017-07-18 16:47
本发明专利技术提出了一种新型的多领域垂直搜索网站,该网站可以自动智能分析用户自然语言提出请求,然后将用户导入不同领域的搜索页面,同时该网站能够反爬虫。主要包括前端分析模块,结果展示模块和反爬虫模块。前端分析模块主要是自然语言处理模块,能够分析出用户使用自然语言提出的请求,判断出用户的搜索领域和关键信息,结果展示模块主要包括搜索框模块,选择条件模块,广告位模块,排序模块,搜索结果展示模块和翻页模块,能够根据用户需求展现出不同的搜索结果页面,同时防止爬虫抽取页面内容。而反爬虫模块主要包括选择条件模块,搜索结果展示模块和翻页模块,主要为设置反爬虫的一些方法。

Design method of a new sort of anti crawling multi domain vertical search website

The present invention provides a novel multi domain vertical search sites, automatic intelligent analysis of natural language user request can be the website, then users into different areas of the search page, the site can also reverse the crawler. It mainly includes front end analysis module, result display module and anti crawler module. The front-end analysis module is the main module of Natural Language Processing, we can analyze the user using natural language request, determine the search field and the key information of the users, result display module includes search box module, selection module, advertising module, scheduling module, display module and the module of the search results page, to show the different search the results page according to the user demand, while preventing the crawler page content extraction. The anti crawler module mainly includes selection condition module, search result display module and page turning module, mainly for setting up some methods of anti crawler.

【技术实现步骤摘要】
一种新型可排序反爬虫多领域垂直搜索网站的设计方法
本专利技术提出了一种新型的,可以处理人工语言请求的,可以反爬虫的,可以对搜索结果进行排序的,多领域垂直搜索系统的网站设计方法。该领域主要包括计算机安全领域,主要是爬虫的数据抽取技术,数据库技术,主要是配置文件读取和排序技术,人工智能领域,主要是自然语言处理领域,能够分别出用户用自然语言提出的请求,并且做出分析和判断。
技术介绍
本专利技术设计的
技术介绍
主要包括爬虫技术,需要对爬虫技术进行深度的理解,方可知道如何反爬虫,同时需要服务器端编程技术,能够记录用户对广告位的点击情况,还有配置文件技术和数据库技术,方便根据配置文件从数据库中读取不同的内容,同时还有自然语言处理技术,该技术主要是能够处理用户使用自然语言提出的需求,对该需求进行分析,判断出用户的搜索领域。
技术实现思路
本网站主要包括前端处理模块,结果页面展示模块和反爬虫模块。主要使用的语言为php。前端处理模块主要是一个中文自然语言处理模块,它能够分析用户提出的中文请求,判断出用户的搜索领域。结果页面显示模块主要包括个四个子模块,按照页面顺序,从上到下分别是搜索框模块,选择条件模块,广告位模块,排序模块,搜索结果展示和翻页模块。搜索框模块提供到该页面的搜索,选择条件模块提供一些过滤条件供用户选择,广告位模块提供广告位给客户,同时记录用户对该广告位的行为,排序模块能够使得搜索结果页面按照预先制定的顺序进行展示,搜索结果展示和翻页模块将用户需要的结果展示出来,并且提供翻页。反爬虫模块包括两个子模块,一个是选择条件模块,另一个是搜索结果展示和翻页模块。通过两个模块的设计,使得爬虫无法抓取。说明书附图。图1为整个系统的架构图。图2为结果展示页面的展示方式。图3为网站首页。具体实施方式。前端处理模块能够分析出用户用自然语言提出的请求,并且分析出该请求的领域和关键词。主要包括一个自然语言处理模块,主要处理方式是,将用户用中文或者其他语言提交的请求,一般是“领域关键词1关键词2”或者“领域”模式。使用php语言对情况分别如下处理,方法如下。1,对只有“领域”的用户请求,将“领域”与已经有的关键词词库进行匹配,每一个领域对应一个关键词词库。1.1,如果“领域”,该词包含某一关键词词库的一个关键词,则判断该“领域”是属于包含该关键词的领域。1.2,如果“领域”,该词不包含任意领域的关键词词库,则判断用户的搜索领域不在网站可以提供的搜索领域范围内。2,对包含“领域关键词1关键词2”的用户请求,将“领域关键词1关键词2”进行分词。2.1,对分词所得的第一个词,定为"领域”,将“领域”与已经有的关键词词库进行匹配,每一个领域对应一个关键词词库。2.1.1,如果“领域”,该词包含某一关键词词库的一个关键词,则判断该“领域”是属于包含该关键词的领域。2.1.2,如果“领域”,该词不包含任意领域的关键词词库,则判断用户的搜索领域不在网站可以提供的搜索领域范围内。结果展示页面包括四个子模块,从上到下分别是搜索框模块,选择条件模块,广告位模块,搜索结果展示和翻页模块。搜索框模块主要是搜索框,提供一个搜索框,同时提供一个提交的按钮,其对应的动作页面是controller.php。选择条件模块主要提供用户的选择条件,根据这些调节对搜索结果进行选择性过滤,其对应的动作页面是result.php。广告位模块是给客户提供的广告位,点击之后能够在数据库中记录用户的点击行为,其具体实施方式如下。1,在选择条件模块下面,生成一个form表格。2,该表格的方法为post。3,对每个客户采用下面方法。3.1,对每个客户,生成一个href记录,链接到客户的网址或者客户的网页,其target设为_blank,点击行为将触发javascript函数,该函数包含客户名称和搜索领域两个输入。3.1.1,被触发的javascript函数使用xmlhttp.open和xmlhttp.send方式向服务器发送GET形式的请求,要求调用一个函数,该函数将客户名称和搜索领域以及访问时间存入数据库。3.2,对每个客户,插入img,对应客户的logo。排序模块主要采用预先配置的方法对搜索结果进行排序。采用的方法如下。1,采用config.xml配置文件存储好每个网站的名称,每页展示的条数。2,在搜索结果展示的时候,对网站名单进行循环。2.1,对每一个网站,使用该网站名和该网站展示的条数,从数据库中读取并且展示。2.2,将读取的内容进行拼接从而达到读取内容的展示。2.2.1,如果读取的网站没有内容了,显示为0.。2.2.2,页数的选择为选择其中较大的页数为总页数。搜索结果展示和翻页模块是将用户的请求,按照其条件选择之后呈现给用户的,同时实现了翻页的效果。反爬虫模块主要包括两个子模块,选择条件模块,搜索结果展示和翻页模块。选择条件模块是用户对需要搜索的结果进行条件选择。主要方法如下。1,选择好所有需要进行设置的条件的类。2,对每一类的条件采用表格的形式。3,该表格使用post方法。4,对应的动作页面为该领域的结果展示页面,假设为result.php。4.1,该类条件里面的细分条件,采用submit的按钮形式替代一个条件。4.2,value记录其所对应的条件。4.3,name记录该条件的类别。搜索结果展示和翻页模块主要是实现了用户请求的搜索结果展示和翻页,主要流程如下。1,如果post形式接收到Submit请求。1.1,$find赋值为post请求的find。1.2,$parts_keywords_list为将$find分隔之后的列。1.3,如果$parts_keywords_list大于1。1.3.1取得搜索领域$part_domain。1.3.2取得搜索关键词$part_keyword。1.3.3将$part_domain赋值给全局变量的search_domain。1.3.4将$part_keyword赋值给全局变量的search_keyword。1.4,将post形式的find赋值给全局变量find。1.5,将全局变量currentpage设为1。1.6,将全局变量price_range设为无限。2,如果收到post形式的pagination。2.1,post形式变量currentpage赋值给全局变量currentpage。3,如果收到post形式的pagination_next。3.1,全局变量currentpage加1。4,如果收到post形式pagination_final。4.1,全局变量total_pages赋值给全局变量currentpage。5,如果收到post形式pagination_prev。5.1,全局变量currentpage减1。6,如果收到post形式pagination_head。6.1,全局变量currentpage为1。7,如果收到post形式price_range。7.1,post变量price_range赋值给全局变量price_range。8,如果收到post形式original_website。8.1,post变量original_website赋值给全局变量original_website。9,全局变量search_keywor本文档来自技高网...
一种新型可排序反爬虫多领域垂直搜索网站的设计方法

【技术保护点】
要求整个系统的构造及其衍生模式进行保护,其中包括前段处理模块,结果展示模块,其中包括搜索框模块,选择条件模块,广告位模块,排序模块,搜索结果展示及翻页模块五个子模块,反爬虫模块,其中将结果展示模块的五个子模块调换次序属于该结果展示模块的衍生模式,要求进行保护,具体的样式图,可以参照说明书附图中的图2,要求对该图的样式进行保护,同时对该图的衍生版本,比如调换各个子模块之间的顺序,也要求保护。

【技术特征摘要】
1.要求整个系统的构造及其衍生模式进行保护,其中包括前段处理模块,结果展示模块,其中包括搜索框模块,选择条件模块,广告位模块,排序模块,搜索结果展示及翻页模块五个子模块,反爬虫模块,其中将结果展示模块的五个子模块调换次序属于该结果展示模块的衍生模式,要求进行保护,具体的样式图,可以参照说明书附图中的图2,要求对该图的样式进行保护,同时对该图的衍生版本,比如调换各个子模块之间的顺序,也要求保护。2.要求对该系统中的前端处理方式进行保护,其中包括中文自然语言处理方式,对包括“领域”,“领域关键词1关键词2”的分析模式进行保护,同时对其的衍生模式也申请保护,比如“领域关键词1关键词2...关键词n”将关键词复制了多次,属于衍生模式,而将各个关键词之间的空格替换为其他符号,比如“,”等,该模式也属于衍生模式,同时将一个空格或者其他分隔符换成多个,比如两个或者三个,也是属于衍生模式。3.要求对结果展示页面的几个模块及其排序方式进行保护,该搜索结果页面从上到下依次为,搜索框模块,条件选择模块,广告位模块,搜索结果展示和翻页模块,要求对该结果展示的主要内容及其衍生模式进行保护,比如类似的页面包括广告位模块,搜索结果展示和翻页模块,搜索框模块,条件选择模块,等调换次序的结果页面形式视为衍生形式,要求进行保护,同时对包含主要的几个页面,比如包含搜索框模块,广告位模块,搜索结果展示和翻页模块的结果页面,视为衍生模式,要求进行保护。4.要求对广告位模块进行保护,保护内容包括,该模块的生成方式及其衍生模式,其中包括但不限于,href的target为_blank,img对应客户的logo,点击行为触发javascript函数,并且进一步触发服务器端的函数,从而进行数据存储的整个流程,同时对其衍生模式要求保护,其中包括,使用href,链接到客户网站,点击行为触发javasc...

【专利技术属性】
技术研发人员:刘挺
申请(专利权)人:刘挺
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1