文档处理、模板生成及概念库生成方法和装置制造方法及图纸

技术编号:6958481 阅读:185 留言:0更新日期:2012-04-11 18:40
本申请涉及文档处理、模板生成及概念库生成方法和装置。该文档处理方法包括:获取模板,该模板由至少一个语义项目构成,各语义项目的候选值及各语义项目之间的关系与机器可处理的语义代码相关联,且该模板与相应的自然语言表达模式相关联;接收针对该模板的至少一个语义项目的输入值;基于所述输入值、各语义项目之间的关系及所关联的机器可处理的语义代码,生成包括机器可处理的语义代码的机器可处理的文档,以及基于所述输入值及所述自然语言表达模式生成包括所述输入值的自然语言文档。根据本申请的实施方式,能同时完成自然语言文档的编辑和对应的准确语义的机器可处理的文档的生成,为文档在不同系统中的语义交互提供了可能,提高了效率。

【技术实现步骤摘要】

本申请总体上涉及信息处理,具体来说涉及文档处理,更具体地,涉及一种文档处理方法和装置,文档处理所使用的模板的生成方法和装置,以及文档处理和模板的生成所使用的概念库的生成方法和装置。
技术介绍
现有技术中已知各种在信息处理设备例如计算机、移动设备、个人数字助理(PDA) 等上编辑自然语言文档的工具。从文字输入、文档编辑、文档交换、文档输出的角度,文档中所使用的文字本身都是代码化的,以便信息处理设备识别和处理。例如包括英文字母和数字以及其它有关符号的ASCII码、各种汉字编码方案等等。实践中存在在语义层面加强文档的互交换性的需要。也就是需要使信息处理设备能够“理解”和交换文档所表达的语义,而不只是文字本身。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本申请第一方面的目的是提供一种能够同时编辑自然语言文档和生成机器可处理文档的文档处理方法和工具。本申请另一方面的目的是提供能够用于前述文档处理方法和工具的模板生成方法和工具。本申请再一方面的目的是提供能够用于前述文档处理方法和工具和/或模板生成方法和工具的概念库生成方法和工具。为实现上述第一方面的目的,根据本申请所提供的一种实施例,提供了一种文档处理方法,包括获取模板,该模板由至少一个语义项目构成,各个语义项目的候选值以及各个语义项目之间的关系与机器可处理的语义代码相关联,并且该模板与相应的自然语言表达模式相关联;接收针对该模板的至少一个语义项目的输入值;基于所述输入值、各个语义项目之间的关系以及所关联的机器可处理的语义代码,生成包括所述机器可处理的语义代码的机器可处理的文档,以及基于所述输入值以及所述自然语言表达模式生成包括所述输入值的自然语言文档。相应地提供了一种文档处理装置,包括获取模板的装置,该模板由至少一个语义项目构成,各个语义项目的候选值以及各个语义项目之间的关系与机器可处理的语义代码相关联,并且该模板与相应的自然语言表达模式相关联;语义项目输入装置,接收针对该模板的至少一个语义项目的输入值;机器可处理文档生成装置,基于所述输入值、各个语义项目之间的关系以及所关联的机器可处理的语义代码,生成包括所述机器可处理的语义代码的机器可处理的文档;以及自然语言文档生成装置,基于所述输入值以及所述自然语言表达模式生成包括所述输入值的自然语言文档。为实现上述另一方面的目的,根据本申请提供的另一实施例,提供了从自然语言文档样本生成前述文档处理方法或者装置所使用的模板的方法,包括识别所述自然语言文档样本中的核心概念及其它句子成份;确定每一句子成份的当前概念与所述核心概念的关系;搜索所述概念库中的修饰概念,所述修饰概念与所述核心概念的关系,同所述当前概念与所述核心概念之间的关系相同;基于搜索结果生成模板的语义项目,以及,在存在具有相同关系的修饰概念的情况下,基于所述具有相同关系的修饰概念生成该语义项目的候选值。相应地,提供了从自然语言文档样本生成模板的装置,包括识别所述自然语言文档样本中的核心概念及其它句子成份的装置;确定每一句子成份的当前概念与所述核心概念的关系的装置;搜索所述概念库中的修饰概念的装置,所述修饰概念与所述核心概念的关系,同所述当前概念与所述核心概念之间的关系相同;基于搜索结果生成模板的语义项目的装置,以及,在存在具有相同关系的修饰概念的情况下,基于所述具有相同关系的修饰概念生成该语义项目的候选值的装置。根据本申请的提供的又一实施例,提供了从自然语言文档样本生成前述文档处理方法或者装置所使用的模板的方法,包括显示所述自然语言文档样本;选定所述自然语言文档样本中的感兴趣的句子成份作为所述模板的核心概念和其它语义项目;确定所述语义项目的当前概念与所述核心概念的关系;搜索所述概念库中的修饰概念,所述修饰概念与所述核心概念的关系,同所述当前概念与所述核心概念之间的关系相同;在存在具有相同关系的修饰概念的情况下,基于所述具有相同关系的修饰概念生成该语义项目的候选值。相应地,提供了从自然语言文档样本生成模板的装置,包括显示所述自然语言文档样本的装置;选定所述自然语言文档样本中的感兴趣的句子成份作为所述模板的核心概念和其它语义项目的装置;确定所述语义项目的当前概念与所述核心概念的关系的装置; 搜索所述概念库中的修饰概念的装置,所述修饰概念与所述核心概念的关系,同所述当前概念与所述核心概念之间的关系相同;以及,在存在具有相同关系的修饰概念的情况下,基于所述具有相同关系的修饰概念生成该语义项目的候选值的装置。为实现上述再一方面的目的,根据本申请提供的另一实施例,提供了生成前述方法或装置所使用的概念库的方法,包括基于自然语言文档样本确定核心概念和修饰概念; 确定修饰概念与核心概念的关系;相关联地存储核心概念、修饰概念以及修饰概念与核心概念的关系,以及相应的语义代码。相应地,提供了生成概念库的装置,包括基于自然语言文档样本确定核心概念和修饰概念的装置;确定修饰概念与核心概念的关系的装置;以及,相关联地存储核心概念、 修饰概念以及修饰概念与核心概念的关系,以及相应的语义代码的装置。此外,本申请的实施例还提供了能够在计算机上执行以实现上述方法或者装置的计算机程序产品,以及存储有或者传输所述计算机程序的计算机可读介质。按照上述各实施例,分别能够同时实现自然语言文档的编辑和对应的准确语义的机器可处理的文档的生成,为文档在不同系统中的语义交互提供了可能,提高了效率。按照上述各实施例,还能够提供支持所述实现的模板和概念库。附图说明参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其它目的、特点和优点。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本专利技术的优选实施例和解释本专利技术的原理和优点。在附图中图1为能够用于实现本申请的各实施例的信息处理设备的例子的示意图;图2为根据一种实施方式的文档处理方法的流程图;图3为根据一种实施方式的文档模板的示例的示意图;图4为所述文档处理方法的一种实施方式中提供模板项目候选值的输入界面的方法的一种实施方式的流程图;图5为根据一种实施方式的文档处理方法所获得的文档示例的示意图;图6为根据一种实施方式的模板生成方法的流程图;图7为根据另一种实施方式的模板生成方法的流程图;图8为根据又一种实施方式的模板生成方法的流程图;图9为根据一种实施方式的概念库生成方法的流程图;图10为根据一种实施方式的文档处理装置的流程图;图11为所述文档处理装置的一种实施方式中提供模板项目候选值的输入界面的装置的一种实施方式的流程图;图12为根据一种实施方式的模板生成装置的流程图;图13为根据另一种实施方式的模板生成装置的流程图;图14为根据一种实施方式的概念库生成装置的流程图;图15为概念库、语义结构及自然表述的相互关系的示意图。具体实施例方式在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚本文档来自技高网...

【技术保护点】
1.一种文档处理方法,包括:获取模板,该模板由至少一个语义项目构成,各个语义项目的候选值以及各个语义项目之间的关系与机器可处理的语义代码相关联,并且该模板与相应的自然语言表达模式相关联;接收针对该模板的至少一个语义项目的输入值;基于所述输入值、各个语义项目之间的关系以及所关联的机器可处理的语义代码,生成包括所述机器可处理的语义代码的机器可处理的文档,以及基于所述输入值以及所述自然语言表达模式生成包括所述输入值的自然语言文档。

【技术特征摘要】
1.一种文档处理方法,包括获取模板,该模板由至少一个语义项目构成,各个语义项目的候选值以及各个语义项目之间的关系与机器可处理的语义代码相关联,并且该模板与相应的自然语言表达模式相关联;接收针对该模板的至少一个语义项目的输入值;基于所述输入值、各个语义项目之间的关系以及所关联的机器可处理的语义代码,生成包括所述机器可处理的语义代码的机器可处理的文档,以及基于所述输入值以及所述自然语言表达模式生成包括所述输入值的自然语言文档。2.如权利要求1所述的文档处理方法,其中,接收针对该模板的至少一个语义项目的输入值包括显示所述至少一个语义项目的输入界面;经由所述输入界面接收所述输入值。3.如权利要求2所述的文档处理方法,其中,显示所述至少一个语义项目的输入界面包括识别该模板中的核心概念;识别该模板中所述至少一个语义项目与所述核心概念的相互关系;从概念库中获取修饰概念,所述修饰概念与所述核心概念的相互关系,同所述语义项目与所述核心概念之间的相互关系相同;基于所述修饰概念生成所述输入界面,用于输入所述语义项目的值。4.如权利要求1所述的文档处理方法,其中,接收针对该模板的至少一个语义项目的输入值包括从外部设备接收输入。5.如权利要求1所述的文档处理方法,其中,获取模板包括从外部设备获取模板。6.如权利要求1所述的文档处理方法,其中,获取模板包括按照需要的自然语言模式构建模板。7.如权利要求1所述的文档处理方法,其中,获取模板包括将自然语言文档样本中的可变的句子成份替换为模板的语义项目,从而形成模板。8.如权利要求1-7之一所述的文档处理方法,其中,所述文档为基于临床文档架构标准的文档。9.一种用于从自然语言文档样本生成如权利要求1-8之一所述的方法所使用的模板的方法,包括识别所述自然语言文档样本中的核心概念及其它句子成份;确定每一句子成份的当前概念与所述核心概念的关系;搜索所述概念库中的修饰概念,所述修饰概念与所述核心概念的关系,同所述当前概念与所述核心概念之间的关系相同;基于搜索结果生成模板的语义项目,以及在存在具有相同关系的修饰概念的情况下,基于所述具有相同关系的修饰概念生成该语义项目的候选值。10.如权利要求9所述的方法,其中,基于搜索结果生成模板的语义项目包括在存在所述具有相同关系的修饰概念的句子成份中选定感兴趣的句子成份作为所述模板的具有候选值选项的语义项目;以及将其它句子成份替换为没有候选值选项的语义项目。11.一种用于从自然语言文档样本生成如权利要求1-8之一所述的方法所使用的模板的方法,包括显示所述自然语言文档样本;选定所述自然语言文档样本中的感兴趣的句子成份作为所述模板的核心概念和其它语义项目;确定所述语义项目的当前概念与所述核心概念的关系;搜索所述概念库中的修饰概念,所述修饰概念与所述核心概念的关系,与所述当前概念与所述核心概念之间的关系相同;在存在具有相同关系的修饰概念的情况下,基于具有相同关系的修饰概念生成该语义项目的候选值。12.如权利要求9-11之一所述的方法,其中,基于具有相同关系的修...

【专利技术属性】
技术研发人员:李静胡岗曹锋王晓元任永亮李中
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1