一种基于视觉效果的正文识别算法制造技术

技术编号:12805656 阅读:115 留言:0更新日期:2016-02-03 19:25
一种基于视觉效果的正文识别算法,所述算法步骤包括:(1)取出一篇网页,提取标题和正文;(2)提取该页面的视觉表达部分,如HTML Tag、JS和CSS;(3)对页面中的有限状态机进行分析,获得部分特殊视觉效果信息;(4)利用垂直渲染引擎计算出字体部分的js和css的效果属性;(5)根据步骤2、3和4,得到以PT为单位的整篇文章的字体尺寸列表;(6)通过字体尺寸列表获得字体权重排序;(7)通过字体颜色与页面对比,获得字体颜色权重列表;(8)通过字符串密度获得密度权重列表;(9)根据步骤6、7和8进行综合运算,获得整个网页表达的语义与重心。

【技术实现步骤摘要】

本专利技术涉及一种正文识别算法,具体来说涉及。
技术介绍
随着互联网的发展与高速宽带的普及,互联网上越来越多的信息具有了绚丽的视觉效果,很多情况下,这些视觉效果,对语义的表达是有意义的,例如在文字中,粗体与红色的运用,往往会表达出一种强调的意思。因此,对搜索引擎采集到的信息进行视觉分析和识另IJ,对于互联网信息中的语义分析,有着重要意义。目前部分公开搜索引擎会对信息正文中的特殊标记部分进行提取,例如H1标记一直都是搜索引擎的宠儿,除了这些用于SE0((Search Engine Optimizat1n,搜索引擎优化)的特殊标记之外,目前的搜索引擎一般不会对信息中的视觉部分关注。
技术实现思路
本专利技术所要解决的技术问题在于克服上述现有技术中存在的缺陷,而提供对互联网信息页面的视觉表达部分进行内容解析,对信息正文中不同部分的视觉部分进行效果分析,最大限度的还原信息的表达者要传递的情绪和重点。为实现上述目的,本专利技术提供,所述算法步骤包括:(1)取出一篇网页,提取标题和正文;(2)提取该页面的视觉表达部分,如HTML Tag、JS和CSS ;(3)对页面中的有限状态机进行分析,获得部分特殊视觉效果信息;(4)利用垂直渲染引擎计算出字体部分的js和css的效果属性;(5)根据步骤2、3和4,得到以PT为单位的整篇文章的字体尺寸列表;(6)通过字体尺寸列表获得字体权重排序;(7)通过字体颜色与页面对比,获得字体颜色权重列表;(8)通过字符串密度获得密度权重列表;(9)根据步骤6、7和8进行综合运算,获得整个网页表达的语义与重心。优选地,所述垂直渲染引擎包括:创建本地窗口对象,将该本地窗口对象的图像数据传送至相对应的底层接口,建立所述本地窗口对象与渲染线程的连接;所述渲染线程以外的数据线程中有图像数据传输到指定的资源存储空间后,启动所述渲染线程对所述资源存储空间中的所述图像数据进行图像渲染,生成渲染数据;实时获取所述渲染数据进行显示,并在渲染完毕后销毁所述本地窗口对象,结束所述渲染线程。优选地,当所述渲染线程以外的数据线程中有图像数据传输到指定的资源存储空间后,启动所述渲染线程对所述资源存储空间中的所述图像数据进行图像渲染,进一步为,所述渲染线程以外的数据线程中有图像数据传输到指定的资源存储空间后,将预先生成的所述脚本信息数据发送至所述底层接口中与上一次保存的进行渲染处理所执行的所述脚本信息数据进行比较,若相同,则启动该渲染线程进行图像渲染;若不同,则进行初始化处理生成相应的渲染线程后再进行图像渲染。优选地,所述脚本信息数据,进一步为字符串形式的脚本信息通过相应函数写入显存,编译为二进制码进行存储的图形处理器进行渲染处理时的执行数据。优选地,启动所述渲染线程对所述图像数据进行图像渲染,生成渲染数据,进一步为,启动所述渲染线程,本地渲染接口函数以循环体的方式在该渲染线程中进行轮询监测,在所述图像数据传输至所述指定的资源存储空间后,将该图像数据传递到底层进行图像渲染,生成渲染数据。优选地,将所述图像数据传递到底层进行图像渲染,进一步为,将所述图像数据以字节数组的方式传递到底层进行图像渲染。优选地,窗口对象创建模块、渲染处理模块以及窗口显示处理模块,其中,所述窗口对象创建模块,用于创建本地窗口对象,将所述本地窗口对象的图像数据发送至所述渲染处理模块;所述渲染处理模块,用于通过其内部的所述渲染线程以外的数据线程接收所述图像数据,并在所述图像数据传输到该渲染处理模块内部指定的资源存储空间后,启动所述渲染线程对所述资源存储空间中的所述图像数据进行图像渲染,生成渲染数据发送至所述窗口显示处理模块,以及用于接收所述窗口显示处理模块发送的终止指令结束所述渲染线程;所述窗口显示处理模块,用于实时获取所述渲染数据进行显示,在渲染完毕后生成销毁指令对所述本地窗口对象进行销毁,同时生成终止指令发送至所述渲染处理模块。 优选地,所述渲染处理模块,进一步用于,通过其内部的所述渲染线程以外的数据线程接收所述图像数据,并在所述图像数据传输到指定的资源存储空间后,将预先生成的所述脚本信息数据与上一次保存的进行渲染处理所执行的所述脚本信息数据进行比较,若相同,则启动所述渲染线程对所述资源存储空间中的进行图像渲染;若不同,则进行初始化处理生成相应的渲染线程后再进行图像渲染,生成渲染数据发送至所述窗口显示处理模块。优选地,所述脚本信息数据,进一步为字符串形式的脚本信息通过相应函数写入显存,编译为二进制码进行存储的图形处理器进行渲染处理时的执行数据。本专利技术提供了对互联网信息页面的视觉表达部分进行内容解析,对信息正文中不同部分的视觉部分进行效果分析,最大限度的还原信息的表达者要传递的情绪和重点。【具体实施方式】:下面对本专利技术的实施例进一步详述。,所述算法步骤包括:(1)取出一篇网页,提取标题和正文;(2)提取该页面的视觉表达部分,如HTML Tag、JS和CSS ;(3)对页面中的有限状态机进行分析,获得部分特殊视觉效果信息;(4)利用垂直渲染引擎计算出字体部分的js和css的效果属性;(5)根据步骤2、3和4,得到以PT为单位的整篇文章的字体尺寸列表;(6)通过字体尺寸列表获得字体权重排序;(7)通过字体颜色与页面对比,获得字体颜色权重列表;(8)通过字符串密度获得密度权重列表;(9)根据步骤6、7和8进行综合运算,获得整个网页表达的语义与重心。垂直渲染引擎包括:创建本地窗口对象,将该本地窗口对象的图像数据传送至相对应的底层接口,建立所述本地窗口对象与渲染线程的连接;所述渲染线程以外的数据线程中有图像数据传输到指定的资源存储空间后,启动所述渲染线程对所述资源存储空间中的所述图像数据进行图像渲染,生成渲染数据;实时获取所述渲染数据进行显示,并在渲染完毕后销毁所述本地窗口对象,结束所述渲染线程。当所述渲染线程以外的数据线程中有图像数据传输到指定的资源存储空间后,启动所述渲染线程对所述资源存储空间中的所述图像数据进行图像渲染,进一步为,所述渲染线程以外的数据线程中有图像数据传输到指定的资源存储空间后,将预先生成的所述脚本信息数据发送至所述底层接口中与上一次保存的进行渲染处理所执行的所述脚本信息数据进行比较,若相同,则启动该渲染线程进行图像渲染;若不同,则进行初始化处理生成相应当前第1页1 2 本文档来自技高网...

【技术保护点】
一种基于视觉效果的正文识别算法,所述算法步骤包括:(1)取出一篇网页,提取标题和正文;(2)提取该页面的视觉表达部分,如HTML Tag、JS和CSS;(3)对页面中的有限状态机进行分析,获得部分特殊视觉效果信息;(4)利用垂直渲染引擎计算出字体部分的js和css的效果属性;(5)根据步骤2、3和4,得到以PT为单位的整篇文章的字体尺寸列表;(6)通过字体尺寸列表获得字体权重排序;(7)通过字体颜色与页面对比,获得字体颜色权重列表;(8)通过字符串密度获得密度权重列表;(9)根据步骤6、7和8进行综合运算,获得整个网页表达的语义与重心。

【技术特征摘要】

【专利技术属性】
技术研发人员:吕永强
申请(专利权)人:广州市邦富软件有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1