一种基于网页分割和搜索算法的服务包装方法技术

技术编号：22075988 阅读：31 留言：0更新日期：2019-09-12 14:13

本发明专利技术公开了一种基于网页分割和搜索算法的服务包装方法，包括以下步骤：服务提取阶段，包括动态包装和/或静态包装；针对动态包装，对动态网页进行解析，并在解析获得的动态表单信息中标记可能存在的表单，用户在可能存在的表单中标记并定义需要的表单；针对静态包装，对静态网页进行解析，并对解析得到的静态表单进行分块和标记，用户选择并定义所需的分块，并填写服务的名称和描述信息和提取规则；服务调用阶段，用户输入调用服务的相关信息，后端系统根据接收的服务调用相关信息，按照提取规则生成相应服务，并返回前端。本发明专利技术极大地提升了用户获取数据的效率。

A Service Packaging Method Based on Web Page Segmentation and Search Algorithms

全部详细技术资料下载

【技术实现步骤摘要】
一种基于网页分割和搜索算法的服务包装方法
本专利技术涉及服务计算领域，具体涉及一种基于网页分割和搜索算法的服务包装方法。
技术介绍
随着互联网的发展，服务提供者倾向于通过网页来展示自己的服务数据，然而各式各样提供便利的网页反而对开发者使用这些源数据造成了很大的限制。服务包装系统旨在将网页中的数据进行封装，包装成一个服务，并提供调用该服务的RestFulAPI以供开发者在开发过程中使用该服务。Web页面块分割技术是对现有网页文档进行分析和处理，具体将整个Web页面分割成包含信息数据的多个块的技术，从而实现广告去除、主要信息提取等功能，主要包括基于节点熵的页面分块技术，基于视觉特征的页面分块技术，基于内容距离的网页分块技术等，Web网页分割技术已被广泛应用于互联网行业的各个领域。服务是具有多种属性，从属于某一具体服务类别，由某个或某类开发者提供的API集合。API是一些预先定义的函数，目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力，而又无需访问源码，或理解内部工作机制的细节。API具有多种输入输出属性，属于某个具体开发者，从属于某一具体服务。网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
技术实现思路
本专利技术的目的是提供一种基于网页分割和搜索算法的服务包装方法。该服务包装方法极大地提升了用户获取数据的效率。为实现上述专利技术目的，本专利技术提供以下技术方案：一种基于网页分割和搜索算法的...

【技术保护点】
1.一种基于网页分割和搜索算法的服务包装方法，包括以下步骤：服务提取阶段，包括动态包装和/或静态包装；针对动态包装，对动态网页进行解析，并在解析获得的动态表单信息中标记可能存在的表单，用户在可能存在的表单中标记并定义需要的表单；针对静态包装，对静态网页进行解析，并对解析得到的静态表单进行分块和标记，用户选择并定义所需的分块，并填写服务的名称和描述信息和提取规则；服务调用阶段，用户输入调用服务的相关信息，后端系统根据接收的服务调用相关信息，按照提取规则生成相应服务，并返回前端。

【技术特征摘要】
1.一种基于网页分割和搜索算法的服务包装方法，包括以下步骤：服务提取阶段，包括动态包装和/或静态包装；针对动态包装，对动态网页进行解析，并在解析获得的动态表单信息中标记可能存在的表单，用户在可能存在的表单中标记并定义需要的表单；针对静态包装，对静态网页进行解析，并对解析得到的静态表单进行分块和标记，用户选择并定义所需的分块，并填写服务的名称和描述信息和提取规则；服务调用阶段，用户输入调用服务的相关信息，后端系统根据接收的服务调用相关信息，按照提取规则生成相应服务，并返回前端。2.如权利要求1所述的基于网页分割和搜索算法的服务包装方法，其特征在于，动态包装包括以下步骤：S1-1、动态页面信息解析，具体包括：S1-1-1、用户自己填写一个url地址，此地址为任意一个可被国际互联网访问的web链接；S1-1-2、使用爬虫技术爬取此url地址对应web页面的源码；S1-1-3、查找页面中是否存在<form>标签，将网页源码转换为结构化类数据，在类数据中查找form标签，并做好标记；S1-1-4、在GUI显示后台不断打印出解析日志信息；S1-1-5、使用图像处理技术，标记页面中所有可能存在的表单信息，以及每个表单中的每一个输入框的位置、可能的提交按钮的位置；S1-2、用户选择表单并定义输入参数信息，具体包括：S1-2-1、用户自主选择自己是否需要使用表单，如需要，选择表单编号，如不需要，跳过此步骤；S1-2-2、用户自主定义每个输入框的名称以及示例值，选择提交按钮编号；S1-2-3、将用户修改后的信息提交给后台，后台根据此信息生成form表单提取规则。3.如权利要求2所述的基于网页分割和搜索算法的服务包装方法，其特征在于，爬虫工具为python3.6环境下的Selenium+BeautifulSoup+Pyquery。4.如权利要求1所述的基于网页分割和搜索算法的服务包装方法，其特征在于，静态包装包括以下步骤：S1-3、静态页面信息解析，具体包括：S1-3-1、使用爬虫技术爬取url地址对应web页面的源码；S1-3-2、使用广度优先搜索算法，找到页面中所有可能存在的项...

【专利技术属性】
技术研发人员：罗智凌，王乃博，吕西亚，杨子桐，廖翔勇，尹建伟，李莹，邓水光，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人