一种基于多模态机器学习的新闻网页正文抽取系统及方法技术方案

技术编号：30536739 阅读：33 留言：0更新日期：2021-10-30 13:12

本发明专利技术属于新闻网页处理技术领域，公开了一种基于多模态机器学习的新闻网页正文抽取系统及方法，基于多模态机器学习的新闻网页正文抽取方法包括：进行不同类型特征的提取；多模态融合，进行特征的联合表示；进行网页正文分类模型训练。本发明专利技术使用多模态机器学习技术，融合网页的视觉特征、内容特征、标签分布特征等，通过特征之间的互补，消除歧义和不确定性，进行新闻类正文抽取，得到更加准确的网页正文判断结果，除了提高文本抽取准确率外，还可以准确抽取图片、视频、pdf文档，并能够大幅降低人工编辑模板的成本，通过对国际主流的1000个新闻网站进行正文抽取测试，对比目前方法，正文抽取准确率提高5％

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态机器学习的新闻网页正文抽取系统及方法

[0001]本专利技术属于新闻网页处理
，尤其涉及一种基于多模态机器学习的新闻网页正文抽取系统及方法。

技术介绍

[0002]目前，对于一个单独的网页，往往最有价值的部分是网页的正文。然而就现在的大多数的网站的网页而言，不仅仅包含正文，网页标签等，其他的如广告，网页链接，插件等占据了网页相当一部分的内容。
[0003]现实的系统中，一般需要对网页进行检索、分类、观点抽取等挖掘处理。这需要对网页的内容进行分析，从而提取有价值的信息。而网页上诸如广告等信息，则是需要剔除的。一个网页的内容基本包含在正文中，对于新闻类网页更为突出。将网页正文之外其他的内容剔除从而降低分析的难度是一种基本的思路。同时正文内容提取的好坏直接影响到接下来分析工作的质量。如何使用最快捷的方法来获取网页的正文，同时又保证提取的内容的准确性，这就是本专利技术需要解决的问题。
[0004]现在的网站正文提取技术，最常用的算法仍然是基于网页标签分析的，这种算法需要对网站HTML建立DOM树，...

【技术保护点】

【技术特征摘要】
1.一种基于多模态机器学习的新闻网页正文抽取方法，其特征在于，所述基于多模态机器学习的新闻网页正文抽取方法包括以下步骤：步骤一，进行新闻网页正文不同类型特征的提取；步骤二，多模态融合，将步骤一提取的信息特征进行联合表示；步骤三，将步骤二联合表示的信息进行网页正文分类模型训练。2.如权利要求1所述的基于多模态机器学习的新闻网页正文抽取方法，其特征在于，步骤一中，所述不同类型特征的提取包括：融合当前争取抽取的常用算法，并使用所述常用算法进行特征的抽取。3.如权利要求1所述的基于多模态机器学习的新闻网页正文抽取方法，其特征在于，所述常用算法包括：网页标签特征抽取算法，抽取网页标签的树形结构特征；内容特征抽取算法，抽取以文字密度为主的特征；视觉类特征抽取算法，抽取包括背景颜色，字体颜色和大小，边框，逻辑块和逻辑块之间的间距。4.如权利要求1所述的基于多模态机器学习的新闻网页正文抽取方法，其特征在于，步骤二中，所述多模态融合，将步骤一提取的信息特征进行联合表示，包括：利用基于贝叶斯决策理论的算法、基于稀疏表示理论的算法、基于深度学习理论算法进行联合融合；并利用多个常用算法将步骤一提取的信息特征，一起映射到一个统一的多模态向量空间。5.如权利要求1所述的基于多模态机器学习的新闻网页正文抽取方法，其特征在于，步骤三中，所述网页正文分类模型...

【专利技术属性】
技术研发人员：王磊，李欣杰，
申请(专利权)人：中译语通科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人