【技术实现步骤摘要】
一种基于多模态机器学习的新闻网页正文抽取系统及方法
[0001]本专利技术属于新闻网页处理
,尤其涉及一种基于多模态机器学习的新闻网页正文抽取系统及方法。
技术介绍
[0002]目前,对于一个单独的网页,往往最有价值的部分是网页的正文。然而就现在的大多数的网站的网页而言,不仅仅包含正文,网页标签等,其他的如广告,网页链接,插件等占据了网页相当一部分的内容。
[0003]现实的系统中,一般需要对网页进行检索、分类、观点抽取等挖掘处理。这需要对网页的内容进行分析,从而提取有价值的信息。而网页上诸如广告等信息,则是需要剔除的。一个网页的内容基本包含在正文中,对于新闻类网页更为突出。将网页正文之外其他的内容剔除从而降低分析的难度是一种基本的思路。同时正文内容提取的好坏直接影响到接下来分析工作的质量。如何使用最快捷的方法来获取网页的正文,同时又保证提取的内容的准确性,这就是本专利技术需要解决的问题。
[0004]现在的网站正文提取技术,最常用的算法仍然是基于网页标签分析的,这种算法需要对网站HTML建立DOM树, ...
【技术保护点】
【技术特征摘要】
1.一种基于多模态机器学习的新闻网页正文抽取方法,其特征在于,所述基于多模态机器学习的新闻网页正文抽取方法包括以下步骤:步骤一,进行新闻网页正文不同类型特征的提取;步骤二,多模态融合,将步骤一提取的信息特征进行联合表示;步骤三,将步骤二联合表示的信息进行网页正文分类模型训练。2.如权利要求1所述的基于多模态机器学习的新闻网页正文抽取方法,其特征在于,步骤一中,所述不同类型特征的提取包括:融合当前争取抽取的常用算法,并使用所述常用算法进行特征的抽取。3.如权利要求1所述的基于多模态机器学习的新闻网页正文抽取方法,其特征在于,所述常用算法包括:网页标签特征抽取算法,抽取网页标签的树形结构特征;内容特征抽取算法,抽取以文字密度为主的特征;视觉类特征抽取算法,抽取包括背景颜色,字体颜色和大小,边框,逻辑块和逻辑块之间的间距。4.如权利要求1所述的基于多模态机器学习的新闻网页正文抽取方法,其特征在于,步骤二中,所述多模态融合,将步骤一提取的信息特征进行联合表示,包括:利用基于贝叶斯决策理论的算法、基于稀疏表示理论的算法、基于深度学习理论算法进行联合融合;并利用多个常用算法将步骤一提取的信息特征,一起映射到一个统一的多模态向量空间。5.如权利要求1所述的基于多模态机器学习的新闻网页正文抽取方法,其特征在于,步骤三中,所述网页正文分类模型...
【专利技术属性】
技术研发人员:王磊,李欣杰,
申请(专利权)人:中译语通科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。