一种英文文本格式优化方法及装置制造方法及图纸

技术编号:10261837 阅读:102 留言:0更新日期:2014-07-26 20:57
本发明专利技术实施例公开了一种英文文本格式优化方法及装置,该方法包括:如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正;和/或,如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;和/或,如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行。本发明专利技术实施例的技术方案能提高对英文阅读资源进行格式优化的效率,能节约成本。

【技术实现步骤摘要】
【专利摘要】本专利技术实施例公开了一种英文文本格式优化方法及装置,该方法包括:如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正;和/或,如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;和/或,如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行。本专利技术实施例的技术方案能提高对英文阅读资源进行格式优化的效率,能节约成本。【专利说明】一种英文文本格式优化方法及装置
本专利技术涉及数字文档处理
,尤其涉及一种英文文本格式优化方法及装置。
技术介绍
随着信息技术的发展,很多在线阅读和电子阅读产品的使用越来越广泛,用户通过PC上的客户端或者浏览器阅读在线文本,或者通过手机、平板等终端设备随时随地地阅读书或期刊的电子文本,已经成为广泛且普遍的阅读模式。然而很多阅读资源原本格式不规范,特别是英文文本,经常会出现段落划分上的错误,例如上行标点未结束,下行开头单词未大写等。直接通过电子阅读产品对这些文本进行阅读时受格式影响较大,用户的阅读体验不佳。现有的解决该问题的方法,多为发布文本阅读资源前人工检查并调整格式。一方面,对于无标记的普通文本而言,人工处理的人力和时间耗费大,效率极低;另一方面,现有的自动格式判断和重排技术,多为针对带标记的文本如xml (Extensible MarkupLanguage,可扩展标记语言)等,或者针对某种固定格式的模板文本,不能普遍适用于没有格式标记的普通文本,整个过程耗时耗力,效率极低。
技术实现思路
有鉴于此,本专利技术实施例提供一种英文文本格式优化方法及装置,能提高对英文阅读资源进行格式优化的效率,能节约成本。第一方面,本专利技术实施例提供了一种英文文本格式优化方法,包括:如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正;和/或如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;和/或如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行。第二方面,本专利技术实施例还提供了一种英文文本格式优化装置,包括:行间修正单元,用于如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正;和/或第一标题行确定单元,用于如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;和/或第二标题行确定单元,用于如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行。本专利技术实施例提出的技术方案的有益技术效果是:本专利技术实施例的技术方案利用了英文文本的特征对行间格式进行修正和标题的确定,能提高对英文阅读资源进行格式优化的效率,能节约成本。【专利附图】【附图说明】为了更清楚地说明本专利技术实施例中的技术方案,下面将对本专利技术实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本专利技术实施例的内容和这些附图获得其他的附图。图1是本专利技术实施例一所述的英文文本格式行间修正方法流程图;图2是本专利技术实施例一所述的方式二所述的确定标题行的方法流程图;图3是本专利技术实施例二所述的英文文本格式优化装置的结构框图;图4是本专利技术实施例二所述的第一标题行确定单元的结构框图。【具体实施方式】为使本专利技术解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本专利技术实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面结合附图并通过【具体实施方式】来进一步说明本专利技术的技术方案。实施例一本实施例所述的英文文本格式优化方法,可适用于使用计算机对格式不够规范的英文电子阅读资源自动进行格式优化处理的情况,该方法可以由具有程序运行功能的计算机来执行。该方法包括对英文文本进行行间修正的方法和确定标题行的方法。需要说明的是,上述行间修正的方法和确定标题行的方法可以单独采用,也可以结合采用,顺序不限。其中,对英文文本进行行间修正的方法包括:如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正。图1是本专利技术实施例一所述的英文文本格式行间修正方法流程图,如图1所示,本实施例所述的英文文本格式优化方法包括:S101、获取所述英文文本中相邻两行中前一行文本的行尾特征和后一行文本的行首特征。本领域的技术人员需要明确的是,本实施例中所述的英文文本主要指内容为英文文字的电子阅读资源,包括但不限于英文的电子书、杂志、文章、博客等主要以文字资源为主的阅读资源。英文文本中对内容按行进行存储,每行后以断行符为结尾。当在某终端显示该英文文本时,则根据终端显示屏幕尺寸等因素对存储行进行自动换行显示,即每个存储行可显示为包括一个或多个显示行的段落。因此,本实施例中所称的行即为英文文本的显不段落,一行对应一个段落。英文文本中行的行首特征,可为多种情况,例如该行行首可能是字符、标点符号或空格。如果为字符,则可以是字母或数字,若为字母,可能是大写字母或小写字母;如果是标点符号,则可以是诸如”、“,或等。同样,英文文本中行的行尾特征,也可为多种情况,例如,该行尾特征可包括断行符、字符、标点符号或空格,如果为字符,则是字母或数字,若为字母,可以是大写字母或小写字母;如果是标点符号,则可以是诸如”、“,”、“:”或“_”等。S102、判断所述行尾特征与所述行首特征是否满足预设行间修正条件,若是则执行S103,若否,则无需进行行间修正,可返回S101,继续获取下一个相邻行的行间特征。对于英文文本来说,由于英文文本本身的段落格式有其特殊性,这些特殊格式属性可作为强特征辅助划分及整合段落,例如段首、句首单词必须大写等。对于每行英文文本,若检测到误判的模式则修正之,例如上行标点未结束,下行开头单词未大写等。通过强特征的识别和修正对英文文本进行分段校正。本实施例主要根据相邻两行中前一行文本的行尾特征和后一行文本的行首特征来辅助段落的修正。具体地如何进行修正,需要预先设置好行间修正条件。S103、对所述行尾特征与所述行首特征进行修正。例如,如果前一行文本的末尾字符和断行符,与下一行的首字母大小写特征,满足预设行间修正条件,则将所述相邻两行进行合并或者适应性修正。例如,若上一行由符号本文档来自技高网
...
一种英文文本格式优化方法及装置

【技术保护点】
一种英文文本格式优化方法,其特征在于,包括:如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正;和/或如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;和/或如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行。

【技术特征摘要】

【专利技术属性】
技术研发人员:王云芝刘水杨宇航
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1