基于深度学习的网页正文抽取方法技术

技术编号：28132657 阅读：37 留言：0更新日期：2021-04-19 11:57

本发明专利技术公开了基于深度学习的网页正文抽取方法，包括如下步骤：1)根DOM节点到叶子DOM节点的数据集准备；2)根DOM节点到叶子DOM节点的数据集构建；3)对根DOM节点到叶子DOM节点的数据集中的数据进行标注；4)利用Fasttext对路径的标签进行预训练和编码；5)训练标签路径文本的LSTM分类模型；6)LSTM模型对标签路径文本进行预测；7)还原抽取到的网页正文。本发明专利技术属于互联网技术领域，具体是指提高简历网页正文抽取正确率的基于深度学习的网页正文抽取方法。法。法。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的网页正文抽取方法

[0001]本专利技术属于互联网
，具体是指基于深度学习的网页正文抽取方法。

技术介绍

[0002]互联网上有大量的公开信息，要获取这些信息，需要采用一系列的爬取与自然语言处理技术，进行网页获取和分析处理，其中，网页正文提取是一个重要研究课题。随着万维网的发展，网页的功能、样式结构变得越来越复杂，网页内常常包含大量无用信息：广告、外部链接、导航栏等等，一般来说，我们关心的只有网页的正文内容，所谓正文，是网页中我们关心的内容信息，包括目标文字、图片、视频。
[0003]研究的正文提取的方法很多，在特定网页范围提供了可观的准确率，现有的一种基于不同密度分布的正文提取方法，文章假设正文内容会集中出现，而构成HTML的除了标签就是文字，所以认为一个网页标签最少的地方就是正文。基于这个假设，文章作出一个标签分布图，这种方法的目标是那种正文较为集中的网页，如新闻网页等等，而且这种提取方式是较为粗糙的，一些分散的正文信息可能就会被这种方法遗漏。
[0004]由于HTML标签通常具有某种象征意义，除了显示的语法，还体现了模块在网页中的功能：如<p>、<img>、<table>等等，HTML的DOM(DocumentObject Model文本对象模型)树也能体现网页的视觉布局结构和逻辑结构。因此，应用DOM树进行正文提取的相关论文有很多，将HTML解析为Dom 树，并用两个过滤步骤得到正文：过滤标...

【技术保护点】

【技术特征摘要】
list压栈；遇到结束标签，并生成标签路径，同时马上进行判断；如果是正文，就压入Keep lis...

【专利技术属性】
技术研发人员：陈前华，
申请(专利权)人：广东电子工业研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人