基于页面信息解析的服务语义获取方法及系统技术方案

技术编号:18256513 阅读:52 留言:0更新日期:2018-06-20 08:17
本发明专利技术提供了一种基于页面信息解析的服务语义获取方法及系统,包括页面分块:结合网页源代码的标签排列模式及页面视觉特性,归纳出特征标签及非特征标签,并依据显性特征标签及非显性特征标签将页面内容分成块,定义为GFPS‑Block,并构建GFPS‑Tree树形结构;向量构建:确定分类使用的向量的文本语料、特征标签及特殊结构三个维度,定义四个类别和每个类别的向量表达式;向量权重确定:通过对现有数据集交叉验证确定向量各个维度的在计算距离时的权重,当距离最大且高于阈值时,认为该块GFPS‑Block的描述信息属于对应类别。本发明专利技术最大程度上排除页面冗余信息,将有效信息按描述放在不同部分中,提升数据可读性。

Service semantic acquisition method and system based on page information analysis

This invention provides a method and system for obtaining service semantics based on page information parsing, including page block: combining the label arrangement pattern and the visual characteristics of page source code, the feature label and non feature label are summed up, and the page content is partitioned into block according to the explicit feature label and the undominant feature label. GFPS Block, and construct the GFPS Tree tree structure; Vector Construction: determine the text corpus, feature label, and special structure of the vector of the classified use three dimensions, define the vector expression of each category and each category; vector weight is determined by cross validation of the existing data sets to determine the dimensions of each vector in the vector. The weight of distance is calculated. When the distance is the largest and higher than the threshold, it is considered that the description information of the block GFPS? Block belongs to the corresponding category. The invention eliminates redundant information on the page to the greatest extent, and puts the effective information in different parts according to the description, so as to enhance the readability of the data.

【技术实现步骤摘要】
基于页面信息解析的服务语义获取方法及系统
本专利技术涉及数据处理
,具体地,涉及一种基于页面信息解析的服务语义获取方法及系统。
技术介绍
在互联网迅速发展的背景下,Web服务这一种新兴的软件技术应运而生。近年来,REST风格的Web服务以其相较更为轻量的特点,获得越来多的关注,越来多的服务提供商将自己的服迁移成RESTfulWeb服务。事实上,随着开放平台和云计算的发展,RESTfulWebAPI的数量已经呈现爆发式增长的态势。在这样的大背景下,越来越多的非软件工程专业人员会接触到对Web服务,而WebAPI中,RESTfulWebAPI占据七成比重。为了使得这些信息通俗易懂,需要对其介绍结构化以便机器挖掘、利用。然而,RESTfulWebAPI的介绍信息目前还没有标准,各个公司以自己的格式对这些API进行使用说明:如全球最大的地图Web服务GoogleMap,将同一组服务的介绍及示例放在一个页面上,将对于身份验证、使用限制等介绍内容链到其他页面上;而Youtube将提供的所有API介绍全部放在一个页面上。面对不统一格式、巨量且增速快的Web服务数据,依靠人工去组织、管理这些数据显然不切实际。为了使得机器可以自动识别、获取并且挖掘这些信息,我们需要向这些页面文本内容上添加语义标注信息,即“Web语义”的思想,设计合适、轻量的模型,使得该模型能准确、高效地处理介绍信息。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种基于页面信息解析的服务语义获取方法及系统。根据本专利技术提供的一种基于页面信息解析的服务语义获取方法,包括:页面分块步骤:结合网页源代码的标签排列模式及页面视觉特性,归纳出特征标签及非特征标签,并依据显性特征标签及非显性特征标签将页面内容分成块,定义为GFPS-Block,并构建GFPS-Tree树形结构保存这些GFPS-Block;向量构建步骤:确定分类使用的向量的文本语料、特征标签及特殊结构三个维度,定义四个类别并定义每个类别的向量表达式;向量权重确定步骤:通过对现有数据集交叉验证确定向量各个维度的在计算距离时的权重,当距离最大且高于阈值时,认为该块GFPS-Block的描述信息属于对应类别,实现分类。较佳的,所述页面分块步骤具体包括:步骤101:将含有与描述内容无关的标签及不含文本内容的冗余标签去除,重新为每个标签定位;步骤102:提取页面上的显性特征标签,将页面内容进行分块,对于页面上不包含显性特征标签的有效内容,则基于非显性特征标签进行分块;步骤103:将分块结果存储在GFPS-Tree上,对每个GFPS-Block依据其显性特征标签的强弱程度重新分层,并定位前驱、后继及兄弟位置。较佳的,所述步骤103具体包括:找到最强显性特征标签,确定GFPS-Tree根节点,初始化GFPS-Tree,如果含有最强显性特征标签的GFPS-Block只有一个,则取它对应在源代码中的节点的父亲节点作为根节点;如果存在多个GFPS-Block,则取它们对应在源代码中相对位置一致的节点的共同的最小父亲节点,其余的则为噪声内容,不作考虑;找到包含每一强度的显性特征标签的GFPS-Block,将含有不高于这个强度的显性特征标签或含有非显性特征标签的后续相邻GFPS-Block移到这一层;判断含有非显性特征的相邻GFPS-Block的文本、结构相似度,对相似度过高的部分重新整合,对相似度过低的部分拆分。较佳的,所述向量构建步骤中的所述四个类别包括:http接口地址、请求参数、响应参数及响应示例。较佳的,所述向量权重确定步骤具体包括:利用tf-idf计算属于类别c的第i个词在该类别及第j个GFPS-Block中的语料权重wic及wicj,得到文本语料相似度TextSimjc;利用K折交叉验证的思想,将现有描述数据集划分为K份,每次选取K-1份训练模型,用最后一份的数据进行验证是否成功将一部分描述信息归类到所属的类别中;选取使得最多描述信息归类成功参数作为分类用向量三个维度的权重,得到分类结果后,将准确的描述信息加入数据集中。根据本专利技术提供的一种基于页面信息解析的服务语义获取系统,包括:页面分块模块:结合网页源代码的标签排列模式及页面视觉特性,归纳出特征标签及非特征标签,并依据显性特征标签及非显性特征标签将页面内容分成块,定义为GFPS-Block,并构建GFPS-Tree树形结构保存这些GFPS-Block;向量构建模块:确定分类使用的向量的文本语料、特征标签及特殊结构三个维度,定义四个类别并定义每个类别的向量表达式;向量权重确定模块:通过对现有数据集交叉验证确定向量各个维度的在计算距离时的权重,当距离最大且高于阈值时,认为该块GFPS-Block的描述信息属于对应类别,实现分类。较佳的,所述页面分块模块具体包括:预处理子模块:将含有与描述内容无关的标签及不含文本内容的冗余标签去除,重新为每个标签定位;分块子模块:提取页面上的显性特征标签,将页面内容进行分块,对于页面上不包含显性特征标签的有效内容,则基于非显性特征标签进行分块;GFPS-Tree构建子模块:将分块结果存储在GFPS-Tree上,对每个GFPS-Block依据其显性特征标签的强弱程度重新分层,并定位前驱、后继及兄弟位置。较佳的,所述GFPS-Tree构建子模块具体包括:找到最强显性特征标签,确定GFPS-Tree根节点,初始化GFPS-Tree,如果含有最强显性特征标签的GFPS-Block只有一个,则取它对应在源代码中的节点的父亲节点作为根节点;如果存在多个GFPS-Block,则取它们对应在源代码中相对位置一致的节点的共同的最小父亲节点,其余的则为噪声内容,不作考虑;找到包含每一强度的显性特征标签的GFPS-Block,将含有不高于这个强度的显性特征标签或含有非显性特征标签的后续相邻GFPS-Block移到这一层;判断含有非显性特征的相邻GFPS-Block的文本、结构相似度,对相似度过高的部分重新整合,对相似度过低的部分拆分。较佳的,所述向量构建模块中的所述四个类别包括:http接口地址、请求参数、响应参数及响应示例。较佳的,所述向量权重确定模块具体包括:利用tf-idf计算属于类别c的第i个词在该类别及第j个GFPS-Block中的语料权重及得到文本语料相似度TextSimjc;利用K折交叉验证的思想,将现有描述数据集划分为K份,每次选取K-1份训练模型,用最后一份的数据进行验证是否成功将一部分描述信息归类到所属的类别中;选取使得最多描述信息归类成功参数作为分类用向量三个维度的权重,得到分类结果后,将准确的描述信息加入数据集中。与现有技术相比,本专利技术具有如下的有益效果:相较于笨重的实体模板,本专利技术提供一个轻量级的模板,对于REST风格的WebAPI有着良好的支持。结合了页面标签排布规则及视觉两种特性,最大程度上排除页面冗余信息,并将有效信息按照描述的方面放在不同的部分中,提升数据的可读性。本专利技术弥补了相关工作对于RESTfulWebAPI描述信息支持度的不足,通过系统,过滤后的数据具有很高的可读性,可以更好地适应面向机器及非专业人士的需求。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目本文档来自技高网...
基于页面信息解析的服务语义获取方法及系统

【技术保护点】
1.一种基于页面信息解析的服务语义获取方法,其特征在于,包括:页面分块步骤:结合网页源代码的标签排列模式及页面视觉特性,归纳出特征标签及非特征标签,并依据显性特征标签及非显性特征标签将页面内容分成块,定义为GFPS‑Block,并构建GFPS‑Tree树形结构保存这些GFPS‑Block;向量构建步骤:确定分类使用的向量的文本语料、特征标签及特殊结构三个维度,定义四个类别并定义每个类别的向量表达式;向量权重确定步骤:通过对现有数据集交叉验证确定向量各个维度的在计算距离时的权重,当距离最大且高于阈值时,认为该块GFPS‑Block的描述信息属于对应类别,实现分类。

【技术特征摘要】
1.一种基于页面信息解析的服务语义获取方法,其特征在于,包括:页面分块步骤:结合网页源代码的标签排列模式及页面视觉特性,归纳出特征标签及非特征标签,并依据显性特征标签及非显性特征标签将页面内容分成块,定义为GFPS-Block,并构建GFPS-Tree树形结构保存这些GFPS-Block;向量构建步骤:确定分类使用的向量的文本语料、特征标签及特殊结构三个维度,定义四个类别并定义每个类别的向量表达式;向量权重确定步骤:通过对现有数据集交叉验证确定向量各个维度的在计算距离时的权重,当距离最大且高于阈值时,认为该块GFPS-Block的描述信息属于对应类别,实现分类。2.根据权利要求1所述的基于页面信息解析的服务语义获取方法,其特征在于,所述页面分块步骤具体包括:步骤101:将含有与描述内容无关的标签及不含文本内容的冗余标签去除,重新为每个标签定位;步骤102:提取页面上的显性特征标签,将页面内容进行分块,对于页面上不包含显性特征标签的有效内容,则基于非显性特征标签进行分块;步骤103:将分块结果存储在GFPS-Tree上,对每个GFPS-Block依据其显性特征标签的强弱程度重新分层,并定位前驱、后继及兄弟位置。3.根据权利要求2所述的基于页面信息解析的服务语义获取方法,其特征在于,所述步骤103具体包括:找到最强显性特征标签,确定GFPS-Tree根节点,初始化GFPS-Tree,如果含有最强显性特征标签的GFPS-Block只有一个,则取它对应在源代码中的节点的父亲节点作为根节点;如果存在多个GFPS-Block,则取它们对应在源代码中相对位置一致的节点的共同的最小父亲节点,其余的则为噪声内容,不作考虑;找到包含每一强度的显性特征标签的GFPS-Block,将含有不高于这个强度的显性特征标签或含有非显性特征标签的后续相邻GFPS-Block移到这一层;判断含有非显性特征的相邻GFPS-Block的文本、结构相似度,对相似度过高的部分重新整合,对相似度过低的部分拆分。4.根据权利要求1所述的基于页面信息解析的服务语义获取方法,其特征在于,所述向量构建步骤中的所述四个类别包括:http接口地址、请求参数、响应参数及响应示例。5.根据权利要求1所述的基于页面信息解析的服务语义获取方法,其特征在于,所述向量权重确定步骤具体包括:利用tf-idf计算属于类别c的第i个词在该类别及第j个GFPS-Block中的语料权重及得到文本语料相似度TextSimjc;利用K折交叉验证的思想,将现有描述数据集划分为K份,每次选取K-1份训练模型,用最后一份的数据进行验证是否成功将一部分描述信息归类到所属的类别中;选取使得最多描述信息归类成功参数作为分类用向量三个维度的权重,得到分类结果后,将准确的描述信息加入数据集中。6.一种基于页面信息...

【专利技术属性】
技术研发人员:曹健童兰轩钱诗友
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1