提取网页内容的方法和网页内容提取装置制造方法及图纸

技术编号:21630219 阅读:51 留言:0更新日期:2019-07-17 11:30
这里公开的示例性实施例涉及提取网页的内容的方法、提取网页的内容的装置及计算机程序介质。根据提取网页的内容的方法,包括:将输入网页转换为文档对象模型树;确定文档对象模型树中的每个叶节点是否内容叶节点,其中如果叶节点在文档对象模型树中的路径与包括至少一个参考路径的第一集合中的一个参考路径匹配,则叶节点被确定为内容叶节点;识别文档对象模型树中的至少一个内容非叶节点,其中每个内容非叶节点的所有下属叶节点均为内容叶节点;选择内容非叶节点中所有下属叶节点的文本内容的总长度最长的内容非叶节点;以及提取所选择的内容非叶节点中所有下属叶节点的文本内容。

Method of Extracting Web Content and Web Content Extraction Device

【技术实现步骤摘要】
提取网页内容的方法和网页内容提取装置
这里公开的示例性实施例涉及网页(Web)内容的提取。
技术介绍
互联网、固定接入设备及便携式接入终端的迅速发展,使得网页成为人们获取信息、制造信息的主要媒介。但是随着网页数量的激增,想要快速准确地获取所需信息是困难的。网页信息提取是将网页作为信息源的一类信息提取,即从半结构化的Web文档中提取信息。其核心是将分散在因特网Internet上的半结构化的HTML页面中的隐含的信息点抽取出来,并以更为结构化、语义更为清晰的形式表示。这为用户在Web文档中查询数据、应用程序直接利用Web文档中的数据提供便利。网页信息提取中的内容提取通常针对诸如新闻发布、事件、新闻报道等由主内容和其他内容组成的网页。但是由于这类网页的布局具有多样性,因此无法为不同布局的网页设定固定的提取模板。为了应对网页布局的多样性,现有的网页内容提取技术通常采用统计方法分析网页。例如风格树分析方法正是通过分析多个近似的网页来提取网页结构。但是这种方法对于网络结构的鲁棒性较差,并且该方法还需要对不同树中的所有叶节点和非叶节点进行比较。因此当数据量很大时会花费过多的计算时间。因此,亟需一种对由主内容和其他内容组成的网页的网页结构不敏感的网页内容提取方法。该方法可以在网页结构改变时也能得到近似或相同的提取结果,并且在待处理的网页数据量很大时,不必消耗过多的计算资源。
技术实现思路
根据这里公开的一个示例性实施例,提供了一种提取网页的内容的方法,包括:将输入网页转换为文档对象模型树;确定文档对象模型树中的每个叶节点是否内容叶节点,其中如果叶节点在文档对象模型树中的路径与包括至少一个参考路径的第一集合中的一个参考路径匹配,则叶节点被确定为内容叶节点;识别文档对象模型树中的至少一个内容非叶节点,其中每个内容非叶节点的所有下属叶节点均为内容叶节点;选择内容非叶节点中所有下属叶节点的文本内容的总长度最长的内容非叶节点;以及提取所选择的内容非叶节点中所有下属叶节点的文本内容。根据这里公开的另一个示例性实施例,提供了一种用于提取网页的内容的装置,包括至少一个处理器。该至少一个处理器被配置成执行如这里公开的示例性实施例的方法。根据这里公开的另一个示例性实施例,提供了一种存储程序的计算机程序存储介质。该程序当被计算机执行时,使得计算机执行如这里公开的示例性实施例的方法。下面参考附图详细描述本专利技术的示例性实施例的进一步特性和优点,以及本专利技术的示例性实施例的结构和操作。应当注意,本专利技术不限于这里描述的具体实施例。在这里出现这样的实施例只是出于说明的目的。相关领域技术人员根据这里包含的指导会想到其它实施例。附图说明在附图中通过例子图解这里公开的示例性实施例,但这些例子不对本专利技术产生限制,图中用类似的附图标记表示类似的元素,其中:图1A是一个示例网页的网页结构的示意图;图1B是根据一个示例性实施例的第一集合生成方法的流程图;图2A是一个示例网页的部分的示意图;图2B是由图2A中由示例网页部分转换成的文档对象模型树的示意图;图3A和图3B是示出了利用图1B的第一集合生成方法生成的第一集合提取输入网页的网页内容的方法的流程图;图4是根据另一个示例性实施例的第二集合生成方法的流程图;图5A和图5B示出了利用图1B的第一集合生成方法生成的第一集合和利用图4的第二集合生成方法生成的第二集合提取输入网页的网页内容的方法的流程图;图6是利用词向量模型提取标题的方法的流程图;图7是关键字节点提取的方法的流程图;图8是说明用于实现这里公开的示例性实施例的各个方面的示例性系统的框图。具体实施方式下面参考附图描述这里公开的示例性实施例。应当注意,出于清楚的目的,在附图和描述中省略了有关所属
的技术人员知道但是与示例性实施例无关的部分和过程的表示和说明。本领域的技术人员可以理解,示例性实施例的各方面可以被实施为系统、方法或计算机程序产品。因此,示例性实施例的各个方面可以具体实现为以下形式,即,可以是完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或组合软件部分与硬件部分的实施例,本文可以一般称为"电路"、"模块"或"系统"。此外,示例性实施例的各个方面可以采取体现为一个或多个计算机可读介质的计算机程序产品的形式,该计算机可读介质上面体现有计算机可读程序代码。可以例如通过计算机网络来分发计算机程序,或者计算机程序可以位于一个或更多个远程服务器上,或被嵌入设备的存储器中。可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是,但不限于电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中,计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式,包括但不限于电磁的、光的或其任何适当的组合。计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。体现在计算机可读介质中的程序代码可以采用任何适当的介质传输,包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。用于执行这里公开的示例性实施例的各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言,诸如"C"程序设计语言或类似的程序设计语言。以下参照按照示例性实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述这里公开的示例性实施例的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器,使得通过计算机或其它可编程数据处理设备执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中,使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。也可以把计算机程序指令加载到计算机或其它可编程数据处理设备上,导致在计算机或其它可编程数据处理设备上执行一系列操作步骤以产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图中的方框中规定的功能/操作的过程。图本文档来自技高网
...

【技术保护点】
1.一种提取网页的内容的方法,包括:将输入网页转换为文档对象模型树;确定所述文档对象模型树中的每个叶节点是否内容叶节点,其中如果所述叶节点在所述文档对象模型树中的路径与包括至少一个参考路径的第一集合中的一个参考路径匹配,则所述叶节点被确定为内容叶节点;识别所述文档对象模型树中的至少一个内容非叶节点,其中每个内容非叶节点的所有下属叶节点均为内容叶节点;选择所述内容非叶节点中所有下属叶节点的文本内容的总长度最长的内容非叶节点;以及提取所选择的内容非叶节点中所有下属叶节点的文本内容。

【技术特征摘要】
1.一种提取网页的内容的方法,包括:将输入网页转换为文档对象模型树;确定所述文档对象模型树中的每个叶节点是否内容叶节点,其中如果所述叶节点在所述文档对象模型树中的路径与包括至少一个参考路径的第一集合中的一个参考路径匹配,则所述叶节点被确定为内容叶节点;识别所述文档对象模型树中的至少一个内容非叶节点,其中每个内容非叶节点的所有下属叶节点均为内容叶节点;选择所述内容非叶节点中所有下属叶节点的文本内容的总长度最长的内容非叶节点;以及提取所选择的内容非叶节点中所有下属叶节点的文本内容。2.如权利要求1所述的方法,还包括:将样本网页转换为样本文档对象模型树;确定所述样本文档对象模型树中每个叶节点的模式,所述模式包括所述叶节点在相应样本文档对象模型树中的路径和所述叶节点的文本内容;确定每个叶节点的模式与所有其它叶节点的模式的匹配次数;以及将匹配次数低于第一阈值的叶节点的路径添加到所述第一集合中。3.如权利要求1所述的方法,其中确定所述文档对象模型树中的每个叶节点是否内容叶节点还包括:如果所述叶节点在所述文档对象模型树中的路径与包括至少一个参考路径的第一集合中的一个参考路径匹配或者所述叶节点在所述文档对象模型树中的路径与包括至少一个参考路径的所述第二集合中的所有参考路径都不匹配,则所述叶节点被确定为内容叶节点。4.如权利要求3所述的方法,还包括:将样本网页转换为样本文档对象模型...

【专利技术属性】
技术研发人员:郑仲光孟遥孙俊
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1