一种基于视觉效果的正文识别算法制造技术

技术编号：12805656 阅读：115 留言：0更新日期：2016-02-03 19:25

一种基于视觉效果的正文识别算法，所述算法步骤包括：(1)取出一篇网页，提取标题和正文；(2)提取该页面的视觉表达部分，如HTML Tag、JS和CSS；(3)对页面中的有限状态机进行分析，获得部分特殊视觉效果信息；(4)利用垂直渲染引擎计算出字体部分的js和css的效果属性；(5)根据步骤2、3和4，得到以PT为单位的整篇文章的字体尺寸列表；(6)通过字体尺寸列表获得字体权重排序；(7)通过字体颜色与页面对比，获得字体颜色权重列表；(8)通过字符串密度获得密度权重列表；(9)根据步骤6、7和8进行综合运算，获得整个网页表达的语义与重心。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种正文识别算法，具体来说涉及。
技术介绍
随着互联网的发展与高速宽带的普及，互联网上越来越多的信息具有了绚丽的视觉效果，很多情况下，这些视觉效果，对语义的表达是有意义的，例如在文字中，粗体与红色的运用，往往会表达出一种强调的意思。因此，对搜索引擎采集到的信息进行视觉分析和识另IJ，对于互联网信息中的语义分析，有着重要意义。目前部分公开搜索引擎会对信息正文中的特殊标记部分进行提取，例如H1标记一直都是搜索引擎的宠儿，除了这些用于SE0((Search Engine Optimizat1n,搜索引擎优化)的特殊标记之外，目前的搜索引擎一般不会对信息中的视觉部分关注。
技术实现思路
本专利技术所要解决的技术问题在于克服上述现有技术中存在的缺陷，而提供对互联网信息页面的视觉表达部分进行内容解析，对信息正文中不同部分的视觉部分进行效果分析，最大限度的还原信息的表达者要传递的情绪和重点。为实现上述目的，本专利技术提供，所述算法步骤包括:(1)取出一篇网页，提取标题和正文；(2)提取该页面的视觉表达部分，如HTML Tag、JS和CSS ；(3)对页面中的有限状态机进行分析，获得部分特殊视觉效果信息；(4)利用垂直渲染引擎计算出字体部分的js和css的效果属性；(5)根据步骤2、3和4，得到以PT为单位的整篇文章的字体尺寸列表；(6)通过字体尺寸列表获得字体权重排序；(7)通过字体颜色与页面对比，获得字体颜色权重列表；(8)通过字符串密度获得密度权重列表；(9)根据步骤6、7和8进行综合运算，获得整个网页表达的语义与重心。优选地，所述垂直渲染引...

【技术保护点】
一种基于视觉效果的正文识别算法，所述算法步骤包括：(1)取出一篇网页，提取标题和正文；(2)提取该页面的视觉表达部分，如HTML Tag、JS和CSS；(3)对页面中的有限状态机进行分析，获得部分特殊视觉效果信息；(4)利用垂直渲染引擎计算出字体部分的js和css的效果属性；(5)根据步骤2、3和4，得到以PT为单位的整篇文章的字体尺寸列表；(6)通过字体尺寸列表获得字体权重排序；(7)通过字体颜色与页面对比，获得字体颜色权重列表；(8)通过字符串密度获得密度权重列表；(9)根据步骤6、7和8进行综合运算，获得整个网页表达的语义与重心。

【技术特征摘要】

【专利技术属性】
技术研发人员：吕永强，
申请(专利权)人：广州市邦富软件有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人