当前位置: 首页 > 专利查询>微软公司专利>正文

提取文本以转换成音频制造技术

技术编号:7627824 阅读:216 留言:0更新日期:2012-08-01 21:10
本发明专利技术涉及提取文本以转换成音频。公开了涉及将标记内容转换成音频输出的各实施例。例如,所公开的一个实施例提供在计算设备中的包括如下各项的方法:将标记文档分成多个内容面板;以及通过基于每一个面板相对于标记文档的总体组织的几何准则和/或基于位置的准则来对所述多个内容面板进行过滤以形成内容面板的子集。该方法还包括:确定内容面板的该子集中的每一个内容面板的文档对象模型(DOM)分析值;通过基于内容面板的该子集中的每一个内容面板的DOM分析值来对内容面板的该子集进行过滤以标识出被确定为包含文本正文内容的内容面板的集合;以及,将在被确定为包含文本正文内容的所选内容面板中的文本转换成音频输出。

【技术实现步骤摘要】

本专利技术涉及提取文本的技术,尤其涉及提取文本以转换成音频的技木。
技术介绍
web浏览器和其他标记文档呈现应用一般被配置成以可视形式来呈现标记文档。尽管视觉上呈现的web内容适于在静态位置中消费,但标记文档的这种呈现可能不适于在移动时消费。已经提出了将标记文档转换成音频输出的各种方法。然而,由于许多网页的复杂布局和不同内容,隔离供转换成音频的文本是具有挑战性的。结果,网页的非期望部分(诸如,广告、内容发现链接、导航控件等)可被无意地转换成音频。
技术实现思路
在此公开了涉及将标记内容转换成音频输出的各个实施例。例如,所公开的ー个实施例提供了一种在计算设备中从标记文档提取文本以供音频输出的方法。该方法包括将标记文档分成多个内容面板;以及通过基于每ー个面板相对于标记文档的总体组织的几何准则和/或基于位置的准则来对所述多个内容面板进行过滤以形成内容面板的子集。该方法还包括确定内容面板的子集中的每ー个内容面板的文档对象模型(DOM)分析值;通过基于内容面板的该子集中的每ー个内容面板的DOM分析值来对内容面板的该子集进行过滤以标识出被确定为包含文本正文内容的内容面板的集合;以及,将在被确定为包本文档来自技高网...

【技术保护点】

【技术特征摘要】
...

【专利技术属性】
技术研发人员:王莼栋P·洛博R·周
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术