多语文档分离的方法和系统技术方案

技术编号:6410275 阅读:177 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种多语文档分离的方法和系统,其主要原理是:对文档字符进行扫描;根据字符属性信息为当前扫描字符确定语种标识;将当前扫描字符的语种标识与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾字符;将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配存放指针;根据所述存放指针,将当前句写入到与该语种标识对应的文件中。通过本发明专利技术,能够实现对WORD文档中的多语混杂内容进行分离,不仅方便了用户操作,而且能够大大节约人力资源和时间。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,尤其涉及一种多语文档分离技术。
技术介绍
在日常文档处理过程中,通常会遇到一个文档中同时存在多语种内容,如在一个 文档中同时存在中文、英文和日文。如果需要将这种多语种文档中的不同语种分开,目前都 是通过人工一点点进行操作,非常浪费人力资源和时间。
技术实现思路
本专利技术的目的是提供一种多语文档分离的方法和系统,该专利技术不仅可以将多语种 文档中的不同语种语言按照语种类别分离开,而且操作简单,大大节省了人力资源和时间。本专利技术的目的是通过以下技术方案实现的本专利技术提供一种多语文档分离的方法,其包括对文档字符进行扫描;根据字符属性信息为当前扫描字符确定语种标识;将当前扫描字符的语种标识与需分离语种标识进行比较,并当二者相同时,记录 当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时, 记录其为句尾字符;将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配 存放指针;根据所述存放指针,将当前句写入到与该语种标识对应的文件中。其中,更优选的,所述根据字符属性信息为当前扫描字符确定语种标识的过程包 括提取当前扫描字符的字符属性信息;根据预设的字符属性信息与语种标识之间的映射关系,为当前扫描字符分配相应 的语种标识。其中,更优选的,所述多语文档分离的方法还包括判断文档中的字符是否全部被扫描,若是,则结束扫描过程;否则,继续扫描。其中,更优选的,在根据字符属性信息为当前扫描字符确定语种标识的过程之前, 还包括获取用户选择的需分离语种标识;获取用户选择的文档的链接地址;获取用户的开始指令,并根据所述文档的链接地址打开对应的文档。其中,更优选的,所述多语文档分离的方法还包括根据授权的用户身份标识库,对登录用户的身份进行验证。本专利技术还提供一种多语文档分离的系统,其包括扫描单元,用于对文档字符进行扫描;语种确定单元,用于根据字符属性信息为当前扫描字符确定语种标识;语句定位单元,用于将所述语种确定单元所确定的语种标识与需分离语种标识进 行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符 号进行比较,并当二者相同时,记录其为句尾字符,将自句首字符至句尾字符的所有字符定 位为当前句,并为当前句分配存放指针;语种分离单元,用于根据所述语句定位单元确定的存放指针,将当前句写入到与 该语种标识对应的文件中。其中,更优选的,所述多语文档分离的系统还包括文档扫描控制单元,用于判断文档中的字符是否全部被扫描,若是,则通知所述扫 描单元结束扫描;否则,不操作。其中,更优选的,所述多语文档分离的系统还包括信息获取单元,用于获取用户选择的需分离语种标识,以及获取用户选择的文档 的链接地址;指令获取单元,用于获取用户的开始指令,并根据所述文档的链接地址打开对应 的文档。其中,更优选的,所述多语文档分离的系统还包括人机交互界面,所述交互界面设置有用户添加按钮,用于添加用户所选择的需分离语种标识,以及添加用户所选择的 文档的链接地址;指令操作按钮,用于用户发送指令。其中,更优选的,所述多语文档分离的系统还包括登录单元,用于获取用户的登录信息,并根据所述登录信息发送身份验证请求给 服务器,并当服务器通过验证后,允许所述用户登录所述人机交互界面。由上述本专利技术提供的技术方案可以看出,本专利技术通过提取与需分离语种标识相同 的字符所在的语句,能够实现对WORD文档中的多语混杂内容进行分离,不仅方便了用户操 作,而且能够大大节约人力资源和时间。附图说明图1为本专利技术第一实施例中提供的多语文档分离的方法的流程图;图2为本专利技术第二实施例中提供的多语文档分离的系统的结构原理图。具体实施例方式下面结合附图对本专利技术实施例进行详细描述。本专利技术第一实施例提供了一种多语文档分离的方法,在实施该方法之前,需要在 服务器数据库中保存被授权用户身份标识信息,在客户端设置字符属性信息与语种标识之 间的映射关系。以及,完成如下系统登录和获取用户添加的需分离语种标识和需分离文档 的链接地址的过程一、系统登录在登录过程中,客户端接收到用户输入的登录信息后,根据该登录信息构造身份验证请求,该请求可以是HTTP (HyperText Transfer Protocol,超文本传送协议)请求, 也可以是其它协议请求,该请求中携带有用户身份标识信息;服务器接收到用户身份验证 请求,根据该请求中携带的用户身份标识信息查找数据库,若发现该用户是被授权用户,则 给客户端返回通过验证的信息;客户端接到该通知后,允许用户登录到客户端的操作界面; 否则,通知用户无权使用该功能。二、获取用户添加的需分离语种标识和需分离文档的链接地址系统登录通过后,客户端呈现给用户一个人机交互操作界面,该客户端操作界面 中设置有文档添加和语种标识添加栏,还设置有指令按钮,该按钮包括开始,暂停和停止。 通过该操作界面,用户可以添加需分离语种标识和需分离文档的链接地址,添加完成后,客 户端会获取到需分离语种标识和需分离文档的链接地址。获取到开始指令后,就会执行上 述第一实施例的具体流程。第一实施例的具体实现流程如图1所示,包括步骤S101,打开需分离文档,记录需分离语种;获取开始指令后,根据需分离文档的链接地址打开对应的文档,并记录需分离语 种标识以备用。步骤S102,执行字符扫描。步骤S103,确定当前扫描字符的语种标识。提取当前扫描字符的字符属性信息;根据预设的字符属性信息与语种标识之间的 映射关系,为当前扫描字符分配相应的语种标识。例如,如果字符属性信息是a,b,c... z, 则认为其是英文语种,于是为其分配一个英语语种标识。步骤S104,将当前字符语种标识与需分离语种标识进行比较,若相同,则执行步骤 S105 ;若不相同,则执行步骤S102。步骤S105 ;记录当前字符为句首字符。步骤S106,继续向后扫描字符。步骤S107,判断扫描到的当前字符是否与句尾符号相同,若相同,则执行步骤 S108 ;否则,转入步骤S106。步骤S108,记录当前字符为句尾字符,分配存放指针。上述存放指针包括待存放文档的路径信息,句首字符和句尾字符在待存放文档 中的存放位置。步骤S109,复制自句首字符至句尾字符整句字符,根据存放指针将其写入到与需 分离语种标识对应的独立文档中。如果该独立文档不存在,则新创建一个;如果存在,则直接将整句字符写入到其 中。步骤S110,判断扫描是否到达文档结束位置,若是,则执行步骤S111,即结束扫 描;否则,继续步骤S102。本专利技术第二实施例提供了一种多语文档分离的系统,为方便用户操作,上述多语 文档分离的系统设置了登录界面和人机交互界面。在登录界面上,可以输入用户的身份信 息。在该交互界面上设置有用户添加按钮和指令操作按钮。用户添加按钮,用于添加用户 所选择的需分离语种标识,以及添加用户所选择的文档的链接地址;指令操作按钮,用于用户发送指令。这些指令按钮包括开始按钮、暂停按钮和结束按钮。该多语文档分离的系统的内部结构原理参见图2,其包括如下功能单元扫描单元21、语种确定单元22、语句定位单元23、语种分离单元24、文档扫描控制单元25、信息获取单元26、指令获取单元27、登录单元28和数据库29。登录单元28,用于获取用户的本文档来自技高网...

【技术保护点】
一种多语文档分离的方法,其特征在于,所述多语文档分离的方法包括:对文档字符进行扫描;根据字符属性信息为当前扫描字符确定语种标识;将当前扫描字符的语种标识与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾字符;将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配存放指针;根据所述存放指针,将当前句写入到与该语种标识对应的文件中。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵国伟
申请(专利权)人:传神联合北京信息技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1