【技术实现步骤摘要】
用于提取信息的方法和装置
本申请实施例涉及计算机
,具体涉及用于提取信息的方法和装置。
技术介绍
随着互联网数据量的增长,互联网上五花八门的网站页面越来越多,信息量越来越大,网站页面也越来越复杂。页面主体信息的提取难度随之增加。页面主体信息通常为我们在获取页面信息时,所希望获取的网站的内容主体部分,页面主体信息通常对于我们提取出页面最有意义的信息非常有帮助。通常,在获取页面主体信息时,还涉及剔除无关紧要的部分的步骤,以便于页面主体信息的提取。
技术实现思路
本申请实施例提出了用于提取信息的方法和装置。第一方面,本申请实施例提供了一种用于提取信息的方法,该方法包括:获取目标页面的文档对象模型DOM数据,其中,目标页面包括页面主体信息,页面主体信息包括以下至少一项:文本集合,图像集合;从DOM数据中,删除符合预设删除条件的数据,得到目标数据,其中,目标数据包括页面主体数据,页面主体数据包括以下至少一项:文本集合对应的文本节点集合,图像集合的统一资源定位符URL集合;对目标数据进行分块,得到数据块集合;从数据块集合中,确定目标数据块,其中,目标数据块是数据块集合中包括页面主体数据的概率最大的数据块;提取目标数据块中的以下至少一项:文本节点,URL。在一些实施例中,获取目标页面的DOM数据,包括:响应于目标页面的DOM数据中的文本节点中的文本的数量与URL集合中的URL的数量之和小于预设阈值,获取动态加载后的目标页面的DOM数据。在一些实施例中,DOM数据包括DOM节点集合;以及预设删除条件包括以下至少一项:DOM节点是预先确定的行内元素;DOM节点是预先确定的 ...
【技术保护点】
1.一种用于提取信息的方法,包括:获取目标页面的文档对象模型DOM数据,其中,所述目标页面包括页面主体信息,所述页面主体信息包括以下至少一项:文本集合,图像集合;从所述DOM数据中,删除符合预设删除条件的数据,得到目标数据,其中,所述目标数据包括页面主体数据,所述页面主体数据包括以下至少一项:所述文本集合对应的文本节点集合,所述图像集合的统一资源定位符URL集合;对所述目标数据进行分块,得到数据块集合;从所述数据块集合中,确定目标数据块,其中,所述目标数据块是所述数据块集合中包括所述页面主体数据的概率最大的数据块;提取所述目标数据块中的以下至少一项:文本节点,URL。
【技术特征摘要】
1.一种用于提取信息的方法,包括:获取目标页面的文档对象模型DOM数据,其中,所述目标页面包括页面主体信息,所述页面主体信息包括以下至少一项:文本集合,图像集合;从所述DOM数据中,删除符合预设删除条件的数据,得到目标数据,其中,所述目标数据包括页面主体数据,所述页面主体数据包括以下至少一项:所述文本集合对应的文本节点集合,所述图像集合的统一资源定位符URL集合;对所述目标数据进行分块,得到数据块集合;从所述数据块集合中,确定目标数据块,其中,所述目标数据块是所述数据块集合中包括所述页面主体数据的概率最大的数据块;提取所述目标数据块中的以下至少一项:文本节点,URL。2.根据权利要求1所述的方法,其中,所述获取目标页面的DOM数据,包括:响应于目标页面的DOM数据中的文本节点中的文本的数量与URL集合中的URL的数量之和小于预设阈值,获取动态加载后的所述目标页面的DOM数据。3.根据权利要求1所述的方法,其中,所述DOM数据包括DOM节点集合;以及所述预设删除条件包括以下至少一项:DOM节点是预先确定的行内元素;DOM节点是预先确定的第一DOM节点集合中的第一DOM节点;DOM节点非预先确定的第二DOM节点集合中的第二DOM节点;DOM数据非文本、URL、换行标签。4.根据权利要求1-3之一所述的方法,其中,所述从所述数据块集合中,确定目标数据块,包括:从所述数据块集合中,确定第一数据块和第二数据块,其中,所述第一数据块是所述目标页面包括的页面区域集合中、面积最大的页面区域对应的数据块,所述第二数据块是所述页面区域集合中、面积第二大的页面区域对应的数据块,页面区域是所述目标页面中的区域;确定所述第一数据块的评分和所述第二数据块的评分,其中,评分表征数据块中的文本节点和URL为待提取数据的概率的大小;将所述第一数据块和所述第二数据块中评分较大的数据块确定为目标数据块。5.根据权利要求4所述的方法,其中,所述第一数据块的评分是根据第一位置、第一长段落比例和第一相似度确定的,其中,所述第一位置是所述第一数据块呈现在所述目标页面的位置,所述第一长段落比例是所述第一数据块中文本的数量超过预设数量阈值的段落的数量与所述第一数据块中的段落的总数量的比,所述第一相似度是所述第一数据块中的标签中除文本标签和图像标签之外的标签的集合与预先提取的标签集合之间的相似度。6.根据权利要求4所述的方法,其中,所述第二数据块的评分是根据第二位置、第二长段落比例和第二相似度确定的,其中,所述第二位置是所述第二数据块呈现在所述目标页面的位置,所述第二长段落比例是所述第二数据块中文本的数量超过所述预设数量阈值的段落的数量与所述第二数据块中的段落的总数量的比,所述第二相似度是所述第二数据块中的标签中除文本标签和图像标签之外的标签的集合与所述标签集合之间的相似度。7.一种用于提取信息的装置,包括:获取单元,被配置成获取目标页面的文档对象模型DOM数据,其中...
【专利技术属性】
技术研发人员:杨森,魏晨辉,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。