一种移动互联网智能信息搜索引擎的搜索方法技术

技术编号:2859126 阅读:455 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于关键字搜索的移动互联网智能信息搜索引擎,其特征是:根据指定的栏目分类和目标网站,机器自动对目标网站进行采样和分析,生成搜索规则,并根据所述搜索规则对所述目标网站进行采集;然后,经过一个信息处理过程,将所述目标网站采集到的网元组织成特定的全文索引结构,并缓存,构成一个全文索引信息库;有一个搜索任务处理模块,对移动设备发出的搜索命令进行处理,通过设备识别和通道识别模块、移动互联网接入模块判断移动设备接入互联网的方式,进行移动设备的设备识别和所使用的通道的识别,将处理结果返回给移动设备。本发明专利技术填补目前移动领域该项服务的空白,并很好的满足了广大移动用户在移动信息获取方面的需要。

【技术实现步骤摘要】

本专利技术涉及一种搜索引擎,特别是一种为移动互联网终端提供的,基于关键字搜索互联网上信息的智能搜索引擎。
技术介绍
随着Internet的快速发展,网络上的信息急速增长,人们越来越依赖于从网络上去搜索需要的信息,搜索引擎是人们搜索网页和网站的工具。目前通过PC机上的浏览器可以实现比较好的信息获取,例如使用google,sohu,yahoo等搜索引擎。移动终端用户也可分别通过内置在移动终端上的wap浏览器和http浏览器来使用google等搜索引擎,使用时,根据输入命令中的关键字,搜索引擎得到和该信息有关的网络url地址链接,并返回到移动终端供用户选择访问。但由于其返回结果包含了标题、关键字和网站联接,没有对结果中的网站链接的网页中的信息元素进行分离,不适合在目前屏幕较小、计算功能较弱、网络带宽较小的移动终端的需要。信息抽取技术原来的目标是从自然语言文档中找到特定的信息,是自然语言处理领域特别有用的一个子领域,网上文本信息的大量增加导致这方面的研究得到高度重视。信息抽取系统通常根据抽取规则或模式,确定需要抽取的信息。根据实际的应用情况可以有很多的信息抽取方法,本文所描述的技术是移动互联网智能信息搜索引擎,在信息抽取方面具有特定的方法。
技术实现思路
本专利技术的目的在于提供一种基于关键字搜索的移动互联网智能信息搜索引擎,以实现在移动终端上,可以在指定目标范围内的互联网站上,根据指定的信息分类栏目,进行基于关键字的信息快速搜索,同时将信息转换为满足终端特性和移动操作特性的表现形式。本专利技术是这样实现的,一种基于关键字搜索的移动互联网智能信息搜索引擎,根据指定的设置栏目分类和目标网站,机器自动对目标网站进行采样和分析,生成搜索规则,并根据所述搜索规则对所述目标网站进行采集;然后,经过一个信息处理过程,将所述目标网站采集到的网元组织成特定的全文索引结构,并缓存,构成一个全文索引信息库;有一个搜索任务处理模块,对移动设备发出的搜索命令进行处理,通过设备和通道识别模块、移动互联网接入模块判断移动设备接入互联网的方式,进行移动设备的设备识别和所使用的通道的识别,将处理结果返回给移动设备。上述搜索规则是指,利用系统自动分析目标网站结构,采集相应的具有相似布局的html网页信息,自动生成目标网站的内容连接获取表达式;并根据需要,生成确切定位的目标网元的内容匹配表达式;通过所述内容匹配表达式得到的目标网元以及目标网元和栏目分类的映射关系,形成一个网元映射图,生成一个内容获取表达式,形成所述搜索规则。所述搜索引擎的信息处理过程是指,在上述搜索规则的驱动下,结合栏目分类,对目标网站进行采集获取的http协议数据信息,进行网页分解、匹配过滤、信息格式化、信息编码、智能句子去重环节,并结合特征码表,对信息显示做处理,删除要过滤的特征码字,最后输出一个去除了空格、标记、并且无非法字符、无其他非正文信息的纯文本信息。所述搜索引擎的全文索引信息库内的信息在搜索规则下采集的并处理后的目标网元的文本内容组成,并以增量的方式为新录入的信息编制增量全文索引,并根据时间序列和所述栏目分类建立索引。所述通道和设备识别模块通过通信的接入通道和协议头,识别移动终端的设备类型,从而得到该设备类型的配置信息;根据不同的移动终端,将搜索结果信息,经过一个可针对移动终端特性和移动用户操作特性的处理后,将移动协议数据输出到用户的移动终端,显示搜索的结果。本专利技术通过采用以上技术方案,以人机交互的方式,设置栏目分类和目标网站,机器自动对目标网站进行采样和分析,生成搜索规则,并根据这些规则对所述目标网站进行采集;然后,经过一个信息处理流程,将所述目标网站采集到的网元组织成特定的全文索引结构,并缓存;有一个搜索任务处理模块,对移动设备发出的的搜索命令进行处理,通过判断所述移动设备接入互联网的方式,进行移动设备的设备识别和所使用的通道的识别,将处理结果经过相应的表现层处理后返回给移动设备。在目前的移动设备屏幕相对较小、计算能力较弱以及网络服务带宽的情况下,本专利技术填补目前移动领域该项服务的空白,并很好的满足了广大移动用户在移动信息获取方面的需要。附图说明图1为本专利技术系统流程2为本专利技术生成搜索规则的示意3为本专利技术信息处理流程的示意4为本专利技术搜索任务处理示意5为本专利技术定制搜索任务示意图具体实施方式下面结合附图对本专利技术做进一步详细描述如图1,总的来说,以人机交互的方式,设置栏目分类4和目标网站1,机器自动对目标网站分析2,形成搜索规则3,并根据这些规则采集引擎5对目标网站1进行采集;然后,经过一个信息处理过程6之后,将从目标网站1采集到的网元,组织成特定的全文索引结构并缓存,构成全文索引信息库7;有一个搜索任务处理模块8,对移动设备发出的搜索命令进行处理,通过设备识别和通道识别模块9、移动互联网接入模块10判断移动设备接入互联网的方式,进行移动设备的设备识别和所使用的通道的识别,将处理结果返回给移动设备。如图2中所示,利用系统自动分析目标网站结构,采集相应的具有相似布局的html网页信息,自动生成内容网页连接获取表达式3.1,并根据人工决策,生成确切定位的目标网元的内容匹配表达式3.2,以及通过内容匹配表达式获得的目标网元,以及目标网元和栏目分类的映射关系,形成一个网元映射图,生成一个内容获取表达式3.3,构成搜索规则。图2中,系统自动进行目标网站结构分析3.11、目标网页Tag语法结构分析3.12和目标网页内容结构分析3.13后,将从目标网站每个栏目、每个目录采集的基于tag语法的网页,按相同的布局、相同的目录进行分类,自动生成和对应目标网站相关的内容网页连接获取表达式3.1。根据每个目标网站目录相似的布局网页Tag语法结构异同部分,网页内容结构异同部分,确定目标网页的全部目标网元位置,生成目标网页的内容匹配表达式3.2。根据各个目标网元的信息类型的特征,通过内容匹配表达式3.2确定网页中各信息分析要素对应的目标网元,目标网元和栏目分类4的映射关系,也就是说,提供一个人工决策的方式,决定目标网元在目标网页上的位置,以及所属的栏目分类,形成一个网元映射图3.31,并生成目标网元的内容获取表达式3.3。经过上述步骤,形成了搜索引擎完整的搜索规则3。如图1、3所示,在搜索规则3的驱动下,结合栏目分类4,对目标网站1进行采集获取的http协议数据信息5.1经过一个信息处理过程6,进行网页分解6.1、匹配过滤6.2、信息格式化6.3、信息编码6.4、智能句子去重环节6.5,并结合特征码表6.7,对信息显示做处理6.6,删除要过滤的特征码字,最后输出的目标网元6.8是一个去除了空格、标记、并且无非法字符、无其他非正文信息的纯文本信息。此文本信息经处理后构成全文索引信息库7,以增量的方式为新录入的信息编制增量全文索引,并根据时间序列和栏目分类建立索引。上述的智能句子去重是一种处理句子信息重复排除的方法,具体的步骤为,a)将信息按标点符号分成句,提取特征码,b)对信息进行特征码提取,每篇信息对N个自然句提取N个特征码,其余的忽略,不足的补零;c)对特征码进行排序、插入、查找、和比较,每条新信息只比较特征码和最相近的m篇信息,d)将差异在设定的值范围内的进行重复排除。根据全文索引信息库7,本文档来自技高网...

【技术保护点】
一种基于关键字搜索的移动互联网智能信息搜索引擎,其特征是:根据指定的栏目分类和目标网站,机器自动对目标网站进行采样和分析,生成搜索规则,并根据所述搜索规则对所述目标网站进行采集;然后,经过一个信息处理过程,将所述目标网站采集到的网元组织成特定的全文索引结构,并缓存,构成一个全文索引信息库;有一个搜索任务处理模块,对移动设备发出的搜索命令进行处理,通过设备识别和通道识别模块、移动互联网接入模块判断移动设备接入互联网的方式,进行移动设备的设备识别和所使用的通道的识别,将处理结果返回给移动设备。

【技术特征摘要】
1.一种基于关键字搜索的移动互联网智能信息搜索引擎,其特征是根据指定的栏目分类和目标网站,机器自动对目标网站进行采样和分析,生成搜索规则,并根据所述搜索规则对所述目标网站进行采集;然后,经过一个信息处理过程,将所述目标网站采集到的网元组织成特定的全文索引结构,并缓存,构成一个全文索引信息库;有一个搜索任务处理模块,对移动设备发出的搜索命令进行处理,通过设备识别和通道识别模块、移动互联网接入模块判断移动设备接入互联网的方式,进行移动设备的设备识别和所使用的通道的识别,将处理结果返回给移动设备。2.根据权力要求1所述的智能信息搜索引擎,其特征在于所述搜索规则是指,利用系统自动分析目标网站结构,采集相应的具有相似布局的html网页信息,自动生成目标网站的内容连接获取表达式;并根据需要生成确切定位的目标网元的内容匹配表达式;通过所述内容匹配表达式得到的目标网元以及目标网元和栏目分类的映射关系,形成一个网元映射图,生成一个内容获取表达式,形成所述搜索规则。3.根据权力要求1所述的智能信息搜索引擎,其特征在于所述信息处理过程是指,在搜索规则的驱动下,结合栏目分类,对目标网站进行采集获取的http协议数据信息进行网页分解、匹配过滤、信息格式化、信息编码、智能句子去重环节,并结合一个特征码表,对信息显示做处理,删除要过滤的特征码字,最后输出一个去除了空格、标记、并且无非法字符、无其他非正文信息的纯文本信息。4.根据权力要求1所述的智能信息搜索引擎,其特征在于所述全文索引信息库内的信息由在搜索规则下采集的并处理后的目标网元的文本内容组成,并以增量的方式为新录入的信息编制增量全文索引,并根据时间序列和所述栏目分类建立索引。5.根据权力要求1所述的智能信息搜索引擎,其特征在于所述通道和设备识别模块通过通信的接入通道和协议头,识别移动终端的设备类型,从而得到该设备类型的配置信息;根据不同的移动终端,将搜索结果信息,经过一个可针对移动终端特性和移动用户操作特性的处理后,将移动协议数据输出到用户的移动终端,显示搜索的结果。6.根据权力要求2所述的...

【专利技术属性】
技术研发人员:张光强高炜
申请(专利权)人:宇龙计算机通信科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1