用于提取信息的方法和装置制造方法及图纸

技术编号:20329304 阅读:31 留言:0更新日期:2019-02-13 05:51
本申请实施例公开了用于提取信息的方法和装置。该方法的一具体实施方式包括:获取目标页面的DOM数据,其中,目标页面包括页面主体信息,页面主体信息包括以下至少一项:文本集合,图像集合;从DOM数据中,删除符合预设删除条件的数据,得到目标数据,其中,目标数据包括页面主体数据,页面主体数据包括以下至少一项:文本集合对应的文本节点集合,图像集合的URL集合;对目标数据进行分块,得到数据块集合;从数据块集合中,确定目标数据块,其中,目标数据块是数据块集合中包括页面主体数据的概率最大的数据块;提取目标数据块中的以下至少一项:文本节点,URL。该实施方式提高了信息提取的灵活性,有助于提高信息提取的准确性和自动化程度。

【技术实现步骤摘要】
用于提取信息的方法和装置
本申请实施例涉及计算机
,具体涉及用于提取信息的方法和装置。
技术介绍
随着互联网数据量的增长,互联网上五花八门的网站页面越来越多,信息量越来越大,网站页面也越来越复杂。页面主体信息的提取难度随之增加。页面主体信息通常为我们在获取页面信息时,所希望获取的网站的内容主体部分,页面主体信息通常对于我们提取出页面最有意义的信息非常有帮助。通常,在获取页面主体信息时,还涉及剔除无关紧要的部分的步骤,以便于页面主体信息的提取。
技术实现思路
本申请实施例提出了用于提取信息的方法和装置。第一方面,本申请实施例提供了一种用于提取信息的方法,该方法包括:获取目标页面的文档对象模型DOM数据,其中,目标页面包括页面主体信息,页面主体信息包括以下至少一项:文本集合,图像集合;从DOM数据中,删除符合预设删除条件的数据,得到目标数据,其中,目标数据包括页面主体数据,页面主体数据包括以下至少一项:文本集合对应的文本节点集合,图像集合的统一资源定位符URL集合;对目标数据进行分块,得到数据块集合;从数据块集合中,确定目标数据块,其中,目标数据块是数据块集合中包括页面主体数据的概率最大的数据块;提取目标数据块中的以下至少一项:文本节点,URL。在一些实施例中,获取目标页面的DOM数据,包括:响应于目标页面的DOM数据中的文本节点中的文本的数量与URL集合中的URL的数量之和小于预设阈值,获取动态加载后的目标页面的DOM数据。在一些实施例中,DOM数据包括DOM节点集合;以及预设删除条件包括以下至少一项:DOM节点是预先确定的行内元素;DOM节点是预先确定的第一DOM节点集合中的第一DOM节点;DOM节点非预先确定的第二DOM节点集合中的第二DOM节点;DOM数据非文本、URL、换行标签。在一些实施例中,从数据块集合中,确定目标数据块,包括:从数据块集合中,确定第一数据块和第二数据块,其中,第一数据块是目标页面包括的页面区域集合中、面积最大的页面区域对应的数据块,第二数据块是页面区域集合中、面积第二大的页面区域对应的数据块,页面区域是目标页面中的区域;确定第一数据块的评分和第二数据块的评分,其中,评分表征数据块中的文本节点和URL为待提取数据的概率的大小;将第一数据块和第二数据块中评分较大的数据块确定为目标数据块。在一些实施例中,第一数据块的评分是根据第一位置、第一长段落比例和第一相似度确定的,其中,第一位置是第一数据块呈现在目标页面的位置,第一长段落比例是第一数据块中文本的数量超过预设数量阈值的段落的数量与第一数据块中的段落的总数量的比,第一相似度是第一数据块中的标签中除文本标签和图像标签之外的标签的集合与预先提取的标签集合之间的相似度。在一些实施例中,第二数据块的评分是根据第二位置、第二长段落比例和第二相似度确定的,其中,第二位置是第二数据块呈现在目标页面的位置,第二长段落比例是第二数据块中文本的数量超过预设数量阈值的段落的数量与第二数据块中的段落的总数量的比,第二相似度是第二数据块中的标签中除文本标签和图像标签之外的标签的集合与标签集合之间的相似度。第二方面,本申请实施例提供了一种用于提取信息的装置,该装置包括:获取单元,被配置成获取目标页面的文档对象模型DOM数据,其中,目标页面包括页面主体信息,页面主体信息包括以下至少一项:文本集合,图像集合;删除单元,被配置成从DOM数据中,删除符合预设删除条件的数据,得到目标数据,其中,目标数据包括页面主体数据,页面主体数据包括以下至少一项:文本集合对应的文本节点集合,图像集合的统一资源定位符URL集合;分块单元,被配置成对目标数据进行分块,得到数据块集合;确定单元,被配置成从数据块集合中,确定目标数据块,其中,目标数据块是数据块集合中包括页面主体数据的概率最大的数据块;提取单元,被配置成提取目标数据块中的以下至少一项:文本节点,URL。在一些实施例中,获取单元进一步被配置成:响应于目标页面的DOM数据中的文本节点中的文本的数量与URL集合中的URL的数量之和小于预设阈值,获取动态加载后的目标页面的DOM数据。在一些实施例中,DOM数据包括DOM节点集合;以及预设删除条件包括以下至少一项:DOM节点是预先确定的行内元素;DOM节点是预先确定的第一DOM节点集合中的第一DOM节点;DOM节点非预先确定的第二DOM节点集合中的第二DOM节点;DOM数据非文本、URL、换行标签。在一些实施例中,确定单元进一步被配置成:从数据块集合中,确定第一数据块和第二数据块,其中,第一数据块是目标页面包括的页面区域集合中、面积最大的页面区域对应的数据块,第二数据块是页面区域集合中、面积第二大的页面区域对应的数据块,页面区域是目标页面中的区域;确定第一数据块的评分和第二数据块的评分,其中,评分表征数据块中的文本节点和URL为待提取数据的概率的大小;将第一数据块和第二数据块中评分较大的数据块确定为目标数据块。在一些实施例中,第一数据块的评分是根据第一位置、第一长段落比例和第一相似度确定的,其中,第一位置是第一数据块呈现在目标页面的位置,第一长段落比例是第一数据块中文本的数量超过预设数量阈值的段落的数量与第一数据块中的段落的总数量的比,第一相似度是第一数据块中的标签中除文本标签和图像标签之外的标签的集合与预先提取的标签集合之间的相似度。在一些实施例中,第二数据块的评分是根据第二位置、第二长段落比例和第二相似度确定的,其中,第二位置是第二数据块呈现在目标页面的位置,第二长段落比例是第二数据块中文本的数量超过预设数量阈值的段落的数量与第二数据块中的段落的总数量的比,第二相似度是第二数据块中的标签中除文本标签和图像标签之外的标签的集合与标签集合之间的相似度。第三方面,本申请实施例提供了一种用于提取信息的电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行,使得该一个或多个处理器实现如上述用于提取信息的方法中任一实施例的方法。第四方面,本申请实施例提供了一种用于提取信息的计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述用于提取信息的方法中任一实施例的方法。本申请实施例提供的用于提取信息的方法和装置,通过获取目标页面的DOM数据,然后,从DOM数据中,删除符合预设删除条件的数据,得到目标数据,之后,从数据块集合中,确定目标数据块,最后,提取目标数据块中的以下至少一项:文本节点,URL,从而提高了信息提取的灵活性,有助于提高信息提取的准确性和自动化程度。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请的一个实施例可以应用于其中的示例性系统架构图;图2是根据本申请的用于提取信息的方法的一个实施例的流程图;图3是根据本申请的用于提取信息的方法的一个实施例的目标页面示意图;图4A是目标页面呈现的页面主体信息包括的文字的示意图;图4B是上述页面主体信息对应的DOM数据中的页面主体数据的示意图;图4C示出了根据本申请的用于提取信息的方法的一个实施例的删除预先确定的行内元素的操作示意图;图5A是根据本申请实施例的用于提取信息的方法的一个本文档来自技高网...

【技术保护点】
1.一种用于提取信息的方法,包括:获取目标页面的文档对象模型DOM数据,其中,所述目标页面包括页面主体信息,所述页面主体信息包括以下至少一项:文本集合,图像集合;从所述DOM数据中,删除符合预设删除条件的数据,得到目标数据,其中,所述目标数据包括页面主体数据,所述页面主体数据包括以下至少一项:所述文本集合对应的文本节点集合,所述图像集合的统一资源定位符URL集合;对所述目标数据进行分块,得到数据块集合;从所述数据块集合中,确定目标数据块,其中,所述目标数据块是所述数据块集合中包括所述页面主体数据的概率最大的数据块;提取所述目标数据块中的以下至少一项:文本节点,URL。

【技术特征摘要】
1.一种用于提取信息的方法,包括:获取目标页面的文档对象模型DOM数据,其中,所述目标页面包括页面主体信息,所述页面主体信息包括以下至少一项:文本集合,图像集合;从所述DOM数据中,删除符合预设删除条件的数据,得到目标数据,其中,所述目标数据包括页面主体数据,所述页面主体数据包括以下至少一项:所述文本集合对应的文本节点集合,所述图像集合的统一资源定位符URL集合;对所述目标数据进行分块,得到数据块集合;从所述数据块集合中,确定目标数据块,其中,所述目标数据块是所述数据块集合中包括所述页面主体数据的概率最大的数据块;提取所述目标数据块中的以下至少一项:文本节点,URL。2.根据权利要求1所述的方法,其中,所述获取目标页面的DOM数据,包括:响应于目标页面的DOM数据中的文本节点中的文本的数量与URL集合中的URL的数量之和小于预设阈值,获取动态加载后的所述目标页面的DOM数据。3.根据权利要求1所述的方法,其中,所述DOM数据包括DOM节点集合;以及所述预设删除条件包括以下至少一项:DOM节点是预先确定的行内元素;DOM节点是预先确定的第一DOM节点集合中的第一DOM节点;DOM节点非预先确定的第二DOM节点集合中的第二DOM节点;DOM数据非文本、URL、换行标签。4.根据权利要求1-3之一所述的方法,其中,所述从所述数据块集合中,确定目标数据块,包括:从所述数据块集合中,确定第一数据块和第二数据块,其中,所述第一数据块是所述目标页面包括的页面区域集合中、面积最大的页面区域对应的数据块,所述第二数据块是所述页面区域集合中、面积第二大的页面区域对应的数据块,页面区域是所述目标页面中的区域;确定所述第一数据块的评分和所述第二数据块的评分,其中,评分表征数据块中的文本节点和URL为待提取数据的概率的大小;将所述第一数据块和所述第二数据块中评分较大的数据块确定为目标数据块。5.根据权利要求4所述的方法,其中,所述第一数据块的评分是根据第一位置、第一长段落比例和第一相似度确定的,其中,所述第一位置是所述第一数据块呈现在所述目标页面的位置,所述第一长段落比例是所述第一数据块中文本的数量超过预设数量阈值的段落的数量与所述第一数据块中的段落的总数量的比,所述第一相似度是所述第一数据块中的标签中除文本标签和图像标签之外的标签的集合与预先提取的标签集合之间的相似度。6.根据权利要求4所述的方法,其中,所述第二数据块的评分是根据第二位置、第二长段落比例和第二相似度确定的,其中,所述第二位置是所述第二数据块呈现在所述目标页面的位置,所述第二长段落比例是所述第二数据块中文本的数量超过所述预设数量阈值的段落的数量与所述第二数据块中的段落的总数量的比,所述第二相似度是所述第二数据块中的标签中除文本标签和图像标签之外的标签的集合与所述标签集合之间的相似度。7.一种用于提取信息的装置,包括:获取单元,被配置成获取目标页面的文档对象模型DOM数据,其中...

【专利技术属性】
技术研发人员:杨森魏晨辉
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1