一种智能化网页内容自动模糊抽取系统技术方案

技术编号:20916883 阅读:30 留言:0更新日期:2019-04-20 09:45
本发明专利技术公开了一种智能化网页内容模糊抽取系统,包括模块A:HTML网页语料库的预处理;模块B:HTML网页内容的快速多重索引的自动生成;模块C:候选业务主题的生成;模块D:候选业务主题的模糊验证;模块E:候选业务主题与对应的XPath关联;模块F:HTML网页内容的抽取。这种方法具有两个优势:(1)不依赖网页内容抽取模板。(2)对网页中的业务主题进行自动模糊识别,准确判断它们的含义。上述两个特点,确保了本发明专利技术的网页内容自动抽取的准确率和召回率。

An Intelligent Web Content Automatic Fuzzy Extraction System

The invention discloses an intelligent web page content fuzzy extraction system, which includes module A: HTML web page corpus preprocessing; module B: HTML web page content fast multi-index automatic generation; module C: candidate business topic generation; module D: candidate business topic fuzzy verification; module E: candidate business topic and corresponding XPath association; module F: HTML web page content automatic generation; module C: candidate business topic generation; module D: candidate business topic fuzzy verification; module E: candidate business topic and corresponding XPath association; Extraction. This method has two advantages: (1) It does not depend on Web content extraction template. (2) Automatic fuzzy recognition of business topics in web pages to accurately judge their meanings. The above two characteristics ensure the accuracy and recall rate of the automatic extraction of web page content according to the present invention.

【技术实现步骤摘要】
一种智能化网页内容自动模糊抽取系统
本专利技术涉及网页内容的自动分析和抽取领域,特别是涉及一种智能化网页内容自动模糊抽取系统及方法。
技术介绍
HTML网页信息抽取技术主要是指从HTML(hyper-textmarkuplanguage)或者HTML5(hyper-textmarkuplanguage5)等语言编写的网页中抽取所需的重要内容,并将抽取的内容转化为某种预先设定的格式,这些内容对商家分析、商品和服务分析、政府监管等重大应用极其关键。随着互联网、移动互联网的迅速普及,各种基于互联网的应用不断发展,各种业态的网站不断出现。为了吸引用户,商家的网站也设计出别具一格的、各种风格的网页。这些网页设计上的业务主题多样性、页面形式多样性,给网页内容自动分析和内容抽取造成了极大的挑战,同时也使得与网页分析相关的应用难以取得满意的效果。因此,本专利技术面临的关键技术难题是:如何自动处理HTML网页多样性的问题,并且完成网页内容的准确抽取?为了认识上述技术难题,下面给出一些具体的分析。每一个网页内容都表达一定的业务主题,不同行业(或者不同业务)的业务主题也千差万别,无法进行统一规定。即使是同一行业(或者同一业务)的两个商家,他们在给业务主题命名时,名称也是五花八门。例如,为了满足小微企业、中低收入阶层投融资需求,为大众创业、万众创新打开了大门,近几年我国互联网金融发展迅速,出现了几千个互联网金融网站。在这些网站上,关于“融资目标”这一业务主题的命名,可以是“融资需求”、“筹款目标”、“融资额度”等等。这些词在形式上是不同的,但是它们反映的主题就是“融资目标”。另外,一个网页(特别是首页)通常伴随着较多的噪声或干扰内容,如广告信息、导航信息、版权信息等等。尽管这些内容在网页中具有一定的作用,但是这些内容对于其它重要内容的抽取却毫无用处,也严重干扰了网页内容抽取的准确率。传统上,网页内容抽取是基于人工预设模板的抽取,即基于预先设计的抽取模板,抽取系统自动抽取网页内容。由于网页形式的多样性,人工建立的模板不仅耗费大量的人工,而且也难以覆盖快速发展的网站需求,因此基于人工预设模板的抽取方法非常低效。
技术实现思路
本专利技术所要解决的技术问题:针对以上问题,本专利技术提出一种具有自动模糊抽取能力的网页内容自动抽取系统及方法。这种方法具有两个优势:(1)不依赖网页内容抽取模板。(2)对网页中的业务主题进行自动模糊识别,准确判断它们的含义。上述两个特点,确保了本专利技术的网页内容自动抽取的准确率和召回率。本专利技术借助人工智能分析技术,利用对风格各异的网站网页进行自动识别,提出了一种精准高效的网页内容模糊抽取系统及方法,为其它的网页应用(统计分析、商家发现、商机发现、政府监管等)提供必要的结构化信息。技术方案:为了解决以上问题,本专利技术的采用了如下技术方案,一种智能化网页内容模糊抽取系统及方法,包括:一种智能化网页内容模糊抽取系统,其特征在于,包括以下模块:模块A:HTML网页语料库的预处理;模块B:HTML网页内容的快速多重索引的自动生成;模块C:候选业务主题的生成;模块D:候选业务主题的模糊验证;模块E:候选业务主题与对应的XPath关联;模块F:HTML网页内容的抽取。所述的模块A的实施步骤如下:对一个含有HTML网页的语料库Σ={P1,P2,...,Pn},对每个网页Pi的DOM树(记为DOMi),对DOMi中的每个节点node,执行以下步骤:步骤A-1:对node中的符号串“&nbsp;”用空格替代,对node中的符号串“&amp;”用“&”替代,node中的符号串“&lt;”用“<”替代,对node中的符号串“&gt;”用“>”替代;步骤A-2:如果node含有<script>(用于网页控制)、<style>(用于网页布局)、<br>(即换行节点,等效于换行符)<img>(即图片节点)、<input>(即输入框节点,用于用户输入信息)或者button(即按钮节点,用于用户点击),或者node中有display:none属性或者href属性,那么从DOMi中删除node节点;步骤A-3:如果node的子节点不含有标签,那么自动增加一个特殊的标签<mytag>。所述模块B的实施步骤如下:引入两个索引map<string,integer>map_count和map<string,list<string>>map_xpath_reverse。对网页语料库中的每一个HTML网页Pi,做以下步骤:步骤B-1:以标签对网页Pi进行分割,形成形如<标签1><内容文本1><标签2><内容文本2>...<标签n><内容文本n></标签1>的DOM树结构,将切分后的<内容文本i>(1≤i≤n)在map_count中找出对应的键部分:如果(<内容文本i>,value)属于map_count,即存在(<内容文本i>,value)属于map_count,那么value=value+1;否则将(<内容文本i>,1)添加到map_count中。步骤B-2:以深度优先的方式遍历HTMP页面Pi,把每个遍历到的节点的XPath路径放入到map_xpath_reverse中的XPath部分,将XPath对应的节点的内容文本加入到map_xpath_reverse中的XPath的内容文本部分。所述模块C的实施步骤如下:引入一个数据结构list<stirng>topic_list,用于存放候选的业务主题;从头开始遍历map_count,对map_count中的每一对(key,value),执行以下步骤:步骤C-1:如果key是一个数词、数量词、百分数、时间词,或者key包含标点符号,那么key不是一个业务主题;步骤C-2:如果TCW(即topic-componentwords的缩写)不为空,而且key包含TCW中的一个主题命名要素,同时value>5,那么key是一个业务主题,将key放入topic_list中。所述模块D的实现方法如下所述:引入一个单字统计表map<string,integer>char_count,其中string部分称为char_count的键部分,integer部分称为char_count的键值部分,执行以下步骤:步骤D-1:从头至尾遍历topic_list的每一项topic,设topic由汉字U1、U2、...、Uj、...、Uk构成;对每个Uj(其中1≤j≤k),如果char_count的键部分含有Uj,即存在(Uj,value)属于char_count,那么value=value+1;如果没有char_count的键部分含有Uj,那么将(Uj,1)存放到char_count中;步骤D-2:从头至尾遍历topic_list的每一项topic,设topic由汉字V1、V2、...、Vj、...、Vm构成;如果那么在topic本文档来自技高网
...

【技术保护点】
1.一种智能化网页内容模糊抽取系统,其特征在于,包括以下模块:模块A:HTML网页语料库的预处理;模块B:HTML网页内容的快速多重索引的自动生成;模块C:候选业务主题的生成;模块D:候选业务主题的模糊验证;模块E:候选业务主题与对应的XPath关联;模块F:HTML网页内容的抽取。

【技术特征摘要】
1.一种智能化网页内容模糊抽取系统,其特征在于,包括以下模块:模块A:HTML网页语料库的预处理;模块B:HTML网页内容的快速多重索引的自动生成;模块C:候选业务主题的生成;模块D:候选业务主题的模糊验证;模块E:候选业务主题与对应的XPath关联;模块F:HTML网页内容的抽取。2.根据权利要求1所述的一种智能化网页内容模糊抽取系统,其特征在于,所述的模块A的实施步骤如下:对一个含有HTML网页的语料库Σ={P1,P2,...,Pn},对每个网页Pi的DOM树(记为DOMi),对DOMi中的每个节点node,执行以下步骤:步骤A-1:对node中的符号串“&nbsp;”用空格替代,对node中的符号串“&amp;”用“&”替代,node中的符号串“&lt;”用“<”替代,对node中的符号串“&gt;”用“>”替代;步骤A-2:如果node含有<script>(用于网页控制)、<style>(用于网页布局)、<br>(即换行节点,等效于换行符)<img>(即图片节点)、<input>(即输入框节点,用于用户输入信息)或者button(即按钮节点,用于用户点击),或者node中有display:none属性或者href属性,那么从DOMi中删除node节点;步骤A-3:如果node的子节点不含有标签,那么自动增加一个特殊的标签<mytag>。3.根据权利要求1所述的一种智能化网页内容模糊抽取系统,其特征在于,所述模块B的实施步骤如下:引入两个索引map<string,integer>map_count和map<string,list<string>>map_xpath_reverse。对网页语料库中的每一个HTML网页Pi,做以下步骤:步骤B-1:以标签对网页Pi进行分割,形成形如<标签1><内容文本1><标签2><内容文本2>...<标签n><内容文本n></标签1>的DOM树结构,将切分后的<内容文本i>(1≤i≤n)在map_count中找出对应的键部分:如果(<内容文本i>,value)属于map_count,即存在(<内容文本i>,value)属于map_count,那么value=value+1;否则将(<内容文本i>,1)添加到map_count中。步骤B-2:以深度优先的方式遍历HTMP页面Pi,把每个遍历到的节点的XPath路径放入到map_xpath_reverse中的XPath部分,将XPath对应的节点的内容文本加入到map_xpath_reverse中的XPath的内容文本部分。4.根据权利要求1所述的一种智能化网页内容模糊抽取系统,其特征在于,所述模块C的实施步骤如下:引入一个数据结构list<stirng>topic_list,用于存放候选的业务主题;从头开始遍历map_count,对map_count中的每一对(key,value),执行以下步骤:步骤C-1:如果key是一个数词、数量词、百分数、时间词,或者key包含标点符号,那么key不是一个业务主题;步骤C-2:如果TCW(即topic-componentwords的缩写)不为空,而且key包含TCW中的一个主题命名要素,同时value>5,那么key是一个业务主题,将key放入topic_list中。5.根据权利要求1所述的一种智能化网页内容模糊抽取系统,其特征在于,所述模块D的实现方法如下所述:引入一个单字统计表map<string,integer>char_count,其中string部分称为char_count的键部分,integer部分称为char_count的键值部分,执行以下步骤:步骤D-1:从头至尾遍历topic_list的每一项topic,设topic由汉字U1、U2、...、Uj、...、Uk构...

【专利技术属性】
技术研发人员:符建辉张燎
申请(专利权)人:中科国力镇江智能技术有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1