文档处理方法和文档处理装置制造方法及图纸

技术编号:8834245 阅读:160 留言:0更新日期:2013-06-22 20:28
本发明专利技术提供了一种文档处理方法和装置。文档处理方法包括:根据专业名词及搭配双语语料库,判定专业文档中的使用不准确的专业名词,并对使用不准确的专业名词进行修正;以及根据专业名词及搭配双语语料库,判定专业文档中的使用不准确的名词搭配,并对使用不准确的名词搭配进行修正;其中,专业文档为采用目标语言的单语文档,上述双语包括目标语言和原始语言。文档处理装置被配置实现上述文档处理方法中包括的功能。应用本发明专利技术的文档处理方法和文档处理装置,可以适用于不同特定专业领域的专业文档处理。

【技术实现步骤摘要】

本专利技术总体上涉及数据处理领域,尤其是文档数据处理领域。更具体地,本专利技术涉及一种文档处理方法和文档处理装置
技术介绍
在进行不同语言的文档之间的转换处理过程中,例如,在对涉及特定专业领域的专业文档进行不同语言之间的转换中,经常会发生在转换后的文档中存在一些用词不当或搭配错误的情况。特别地,在某种语言的特定领域专业文档中,经常因为该领域的一些特殊表达方式或者特殊的语义等,使得针对该领域的专业文档进行转换处理得到的其他语言的文档中容易存在错误的词汇和搭配。然而,目前在包括自然语言的文档数据处理领域中存在的一些文档处理技术,通常是利用通用语料库以及/或通过双语平行文本对齐等来对文档中的数据进行诸如拼写检查、示例提供以及错误搭配检查等处理。但是,目前已有的文档处理技术主要是利用通用领域的预设的错误搭配模式数据库来检查并获得文档中的错误搭配,因此不适用于不同特定专业领域的文档处理。
技术实现思路
鉴于现有技术的上述缺陷,本专利技术的目的之一是提供一种文档处理方法和文档处理装置,以至少克服目前现有的文档处理技术不适用于不同特定专业领域的文档处理的问题。此外,可以显著提高在进行文档处理的过程中各种不同语言文档数据之间转换的正确性。为了实现上述目的,根据本专利技术的一个方面,提供了一种文档处理方法,其包括:根据专业名词及搭配双语语料库,判定专业文档中的使用不准确的专业名词,并对使用不准确的专业名词进行修正;以及根据专业名词及搭配双语语料库,判定该专业文档中的使用不准确的名词搭配,并对使用不准确的名词搭配进行修正;其中,上述专业文档为采用目标语言的单语文档,并且,上述双语包括目标语言和原始语言。根据本专利技术的另一个方面,还提供了一种文档处理装置,其包括:第一处理单元,其被配置用于根据专业名词及搭配双语语料库来判定专业文档中的使用不准确的专业名词,并对使用不准确的专业名词进行修正;以及第二处理单元,其被配置用于根据该专业名词及搭配双语语料库来判定该专业文档中的使用不准确的名词搭配,并对使用不准确的名词搭配进行修正;其中,该专业文档为采用目标语言的单语文档,上述双语包括目标语言和原始语目。依据本专利技术的其它方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,所述程序在执行时能够使所述计算设备执行上述文档处理方法。根据上述本专利技术实施例的文档处理方法和文档处理装置,能够实现至少以下益处:通过利用专业名词及搭配双语语料库,来判断特定专业领域中的专业文档中的专业名词、搭配的使用是否准确,并进而对使用不准确的专业名词、搭配进行修正,能够适用于不同特定专业领域的专业文档处理。在上文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。通过以下结合附图对本专利技术的最佳实施例的详细说明,本专利技术的这些以及其他优点将更加明显。附图说明本专利技术可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本专利技术的优选实施例和解释本专利技术的原理和优点。在附图中:图1是示意性地示出根据本专利技术实施例的文档处理方法的一个示例性处理的流程图;图2是示意性地示出用于获取专业名词及搭配双语语料库的示例性处理的流程图;图3是示意性示出用于获取专业名词及搭配双语语料库的示例性处理中所包含的处理流程300的图;图4是示意性地示出图1所示的处理流程100中的步骤S120的一种实现方式的处理的流程图;图5是示意性地示出图1中的步骤S130的一种具体处理的流程图;图6是示意性地示出根据本专利技术实施例的文档处理方法的另一个示例性处理的流程图;图7是示意性地示出图1中的步骤S140的一种具体处理的流程图;图8是示意性示出根据本专利技术实施例的文档处理装置的一种结构的框图;图9是示意性地示出根据本专利技术实施例的文档处理装置的另一种结构的框图;图10是示意性地示出如图9所示的补充处理子单元940的一种可能结构的框图;图11是示意性地示出可用来实现根据本专利技术实施例的文档处理方法和文档处理装置的一种可能的信息处理设备的硬件配置的结构简图。本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本专利技术实施例的理解。具体实施例方式在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。根据本专利技术实施例的文档处理方法包括:根据专业名词及搭配双语语料库,判定专业文档中的使用不准确的专业名词,并对使用不准确的专业名词进行修正;以及根据上述专业名词及搭配双语语料库,判定该专业文档中的使用不准确的名词搭配,并对使用不准确的名词搭配进行修正。其中,这里所说的专业文档是采用目标语言的单语文档,并且,上述双语包括目标语言和原始语言。图1是示意性地示出根据本专利技术实施例的文档处理方法的一个示例性处理的流程图。如图1所示,该文档处理方法的处理流程100开始于步骤S110,然后执行步骤S120。在步骤S120中,根据专业名词及搭配双语语料库来判定专业文档中的使用不准确的专业名词,然后对所判定的使用不准确的专业名词进行修正。然后执行步骤S130。其中,这里所说的专业名词及搭配双语语料库,其可以包含目标语言和原始语言的双语语料,并且该双语语料中的任一种语言语料中包含的每个专业名词可与至少一个另一种语言语料中包含的专业名词的意义相符并对应;以及双语语料中的任一种语言语料中包含的每个搭配可与至少一个另一种语言语料中包含的搭配的意义相符并对应。换句话说,该双语语料可以包括目标语言语料和原始语言语料,并且,目标语言语料中的每个专业名词可与原始语言语料中包含的一个或多个专业名词的语义相符,并且在语义相符的两个专业名词之间可存在对应关系;类似地,目标语言语料中的每个搭配可与原始语言语料中包含的一个或多个搭配的语义相符,并且在语义相符的两个搭配之间可存在对应关系。此外,该专业名词及搭配双语语料库中包括名词和搭配,其中,搭配可以包括名词搭配,还可以选择性地包括动词搭配。这里所说的名词搭配可以至少包括“动词+名词”结构的搭配,还可以包括其他类型的名词搭配,例如,“形容词+名词”、“名词+名本文档来自技高网...

【技术保护点】
一种文档处理方法,包括:根据专业名词及搭配双语语料库,判定专业文档中的使用不准确的专业名词,并对使用不准确的专业名词进行修正;以及根据所述专业名词及搭配双语语料库,判定所述专业文档中的使用不准确的名词搭配,并对使用不准确的名词搭配进行修正;其中,所述专业文档为采用目标语言的单语文档,所述双语包括目标语言和原始语言。

【技术特征摘要】
1.一种文档处理方法,包括: 根据专业名词及搭配双语语料库,判定专业文档中的使用不准确的专业名词,并对使用不准确的专业名词进行修正;以及 根据所述专业名词及搭配双语语料库,判定所述专业文档中的使用不准确的名词搭配,并对使用不准确的名词搭配进行修正; 其中,所述专业文档为采用目标语言的单语文档,所述双语包括目标语言和原始语言。2.根据权利要求1所述的文档处理方法,还包括: 在对使用不准确的名词搭配进行修正之后,根据所述专业名词及搭配双语语料库,判定所述专业文档中的使用不准确的动词搭配,并对使用不准确的动词搭配进行修正。3.根据权利要求1或2所述的文档处理方法,其中,所述专业名词及搭配双语语料库通过如下方式获得: 基于专业双语平行语料库,获得分别在所述专业双语平行语料库中的双语平行语料中出现频率高于第一预定阈值的专业名词和搭配; 对所述专业双语平行语料库中的双语语句进行对齐;以及 在对齐的双语语句中的意义相符的、且在所述专业双语平行语料库中出现频率高于第一预定阈值的专业名词和搭配之间建立对应关系,从而构建专业名词及搭配双语语料库。4.根据权利要求3所述的文档处理方法,还包括对所构建的专业名词及搭配双语语料库进行如下的补充处理: 在所述原始语言和所述目标语言各自的通用领域单语语料库中,分别获得每种语言的出现频率高于第二预定阈值的名词和搭配; 利用同义词库分别获得每种语言的所述名词和搭配的同义词和同义搭配; 判定在两种语言通用领域单语语料库中的现频率高于第二预定阈值的名词和搭配、和/或所述同义词和同义搭配是否包含在所述专业双语平行语料库中;以及 在判定结果为“是”的情况下,将上述在两种语言通用领域单语语料库中的出现频率高于第二预定阈值的名词和搭配、和/或同义词和同义搭配及其在所述专业双语平行语料库中的原始语言形式或目标语言形式的对应译文补充至已构建的专业名词及搭配双语语料库中,并在上述在两种语言通用领域单语语料库中的出现频率高于第二预定阈值的名词和搭配、和/或所述同义词和同义搭配与其译文之间建立对应关系。5.根据权利要求2-4中所述的任意一种文档处理方法,其中, 所述专业文档中的名词搭配为其内容含有所述专业文档中的专业名词的搭配,其包括“动词+名词”结构的搭配;以及 所述专业文档中的动词搭配为与所述名词搭配中的“动词+名词”结构的搭配中包含的动词相关的搭配。6.根据权利要求1-5所述的任意一种文档处理方法,其中,所述的判定所述专业文档中的专业名词的使用是否准确并对使用不准确的专业名词进行修正包括: 分别获得所述专业文档中的专业名词、所述专业名词的同义词以及...

【专利技术属性】
技术研发人员:葛乃晟孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1