一种基于配置信息匹配及相似度提取网页信息的方法技术

技术编号:17994570 阅读:63 留言:0更新日期:2018-05-19 11:45
本发明专利技术公开了一种基于配置信息匹配及相似度提取网页信息的方法,提出了基于配置信息文本匹配及相似度计算实现的未知网页表格信息提取方法,利用新颖技术手段实现对未知网页表格细粒度的解析,通过自定义配置文件,获取用户想要的信息以及屏蔽不想要的信息,通过任意配置的外部文件,实现通用表格解析;提取网页中的最小表格,通过利用现今自然语言处理领域的文本间匹配以及相似度计算方式,抽取目标信息、弃丢无效信息,直接通过文本计算的方式实现信息获取,优于传统技术只能处理标准表格的方案,实现了对多种特殊表格的处理。

A method of web page information extraction based on matching and similarity of configuration information

The invention discloses a method of extracting web information based on configuration information matching and similarity, and proposes a method for extracting information from unknown web pages based on configuration information text matching and similarity calculation. Obtain the information that the user wants and shield unwanted information, implement general table analysis through arbitrary configuration of external files, extract the smallest table in the web page, extract the target information and abandon invalid information by using the matching of text in the current Natural Language Processing field and the similarity calculation method. The way of obtaining information through text computation is superior to that of traditional technology that can only handle standard forms, and achieves the processing of many special forms.

【技术实现步骤摘要】
一种基于配置信息匹配及相似度提取网页信息的方法
本专利技术涉及查询方法
,尤其涉及一种基于配置信息匹配及相似度提取网页信息的方法。
技术介绍
知识图谱与图数据挖掘中经常需要挖掘满足给定结构的所有子图,这个问题通常称之为子图同构、子图匹配或子图查询。当前的子图匹配算法多是基于单机的,效率比较低,不能使用多台机器并行处理,能力有限,难以处理大规模数据。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种基于配置信息匹配及相似度提取网页信息的方法。本专利技术通过以下技术方案来实现上述目的:本专利技术包括以下步骤:S1:用户自定义与表格解析过程相关的配置文件;S2:顺序读取未知网页URL,查询数据库中是否已存在相关配置文件以及网页URL,若存在,直接读取数据;若不存在,存储其网页源码,利用JAVA中的Jsoup包将源码解析为Document对象;S3:从根节点处深度递归遍历所有含table标签的表格,寻找所有非重复最小表格;S4:遍历表格的第一行、第一列字段分别保存,获取配置文件中用户给出的字段列表,通过投票机制确定该表格属性为横向或者纵向。得到所有表格属性并保存;S5:将每个本文档来自技高网...
一种基于配置信息匹配及相似度提取网页信息的方法

【技术保护点】
一种基于配置信息匹配及相似度提取网页信息的方法,其特征在于:包括以下步骤:S1:用户自定义与表格解析过程相关的配置文件;S2:顺序读取未知网页URL,查询数据库中是否已存在相关配置文件以及网页URL,若存在,直接读取数据;若不存在,存储其网页源码,利用JAVA中的Jsoup包将源码解析为Document对象;S3:从根节点处深度递归遍历所有含table标签的表格,寻找所有非重复最小表格;S4:遍历表格的第一行、第一列字段分别保存,获取配置文件中用户给出的字段列表,通过投票机制确定该表格属性为横向或者纵向;得到所有表格属性并保存;S5:将每个最小表格作为处理单位,将标签table作为根节点roo...

【技术特征摘要】
1.一种基于配置信息匹配及相似度提取网页信息的方法,其特征在于:包括以下步骤:S1:用户自定义与表格解析过程相关的配置文件;S2:顺序读取未知网页URL,查询数据库中是否已存在相关配置文件以及网页URL,若存在,直接读取数据;若不存在,存储其网页源码,利用JAVA中的Jsoup包将源码解析为Document对象;S3:从根节点处深度递归遍历所有含table标签的表格,寻找所有非重复最小表格;S4:遍历表格的第一行、第一列字段分别保存,获取配置文件中用户给出的字段列表,通过投票机制确定该表格属性为横向或者纵向;得到所有表格属性并保存;S5:将每个最小表格作为处理单位,将标签table作为根节点root;S6:若该表格为纵向表格,获取root第一个非空子节点的标签rowspan值,此值为表头所占行数,根据表头所占行数,获取所有表头字段propertyStr;S7:遍历表头节点的所有非空兄弟节点,遍历每一个兄弟节点的非空子节点,并记录每一个兄弟节点子节点的个数,将数值取为最大的子节点个数;S8:以表头节点的兄弟节点个数与设计对应的二维矩阵,分别读取兄弟节点子节点的字段,将其存储于二维矩阵,形成表头propertyStr字段与二维矩阵列一一对应;S9:若所有子节点的个数与表头字段propertyStr长度相同,执行步骤S11;S10:若子节点的个数与表头字段长度不同,找出与表头字段propertyStr长度不同的兄弟节点对应的二维矩阵的行,认为其可能是另一个表头,对所有表头以及表头字段对应二维矩阵的字段值执行步骤S18、S19与S20;S11:若该表格为横向表格,取出root第一个非空子节点,遍历该节点的所有子节点,取出其字段值保存,记为第一类字段;遍历root的所有子节点,取出这些节点的第一个子节点,取出字段值保存,记为第二类字段;获取配置文件中用户给出的字段列表,计算出字段列表与上述两类字段的文本相似度,分别记为权重和;S12:若,取出第一类字段列表序号为奇数所有字段分别与配置文件中用户给出的正面字段名/正面字段列表进行文本正则化匹配;若未匹配到,跳至步骤S13;若匹配到,执行步骤S6-S10;S13:取出根节点root非空子节点trElement的标签rowspan值;S14:若rowspan=1,遍历上述节点trElement的所有子节点,取出所有子节点的字段值记为strString,计算strString元素个数size;S15:若...

【专利技术属性】
技术研发人员:尚保林王明兴徐晓松
申请(专利权)人:北京海致星图科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1