【技术实现步骤摘要】
本专利技术涉及提取文本的技术,尤其涉及提取文本以转换成音频的技木。
技术介绍
web浏览器和其他标记文档呈现应用一般被配置成以可视形式来呈现标记文档。尽管视觉上呈现的web内容适于在静态位置中消费,但标记文档的这种呈现可能不适于在移动时消费。已经提出了将标记文档转换成音频输出的各种方法。然而,由于许多网页的复杂布局和不同内容,隔离供转换成音频的文本是具有挑战性的。结果,网页的非期望部分(诸如,广告、内容发现链接、导航控件等)可被无意地转换成音频。
技术实现思路
在此公开了涉及将标记内容转换成音频输出的各个实施例。例如,所公开的ー个实施例提供了一种在计算设备中从标记文档提取文本以供音频输出的方法。该方法包括将标记文档分成多个内容面板;以及通过基于每ー个面板相对于标记文档的总体组织的几何准则和/或基于位置的准则来对所述多个内容面板进行过滤以形成内容面板的子集。该方法还包括确定内容面板的子集中的每ー个内容面板的文档对象模型(DOM)分析值;通过基于内容面板的该子集中的每ー个内容面板的DOM分析值来对内容面板的该子集进行过滤以标识出被确定为包含文本正文内容的内容面板的集合; ...
【技术保护点】
【技术特征摘要】
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。