模板提取方法和装置制造方法及图纸

技术编号:5985359 阅读:184 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种模板提取方法和装置。所述模板提取方法包括:对语料进行包括分句和分词在内的预处理;从预处理后的语料中提取出候选模板;以及对提取出的候选模板进行优化。其中,所述优化步骤包括:针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词序列在语料中出现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率;以及确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板中由所述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干扰模板,并从所提取出的候选模板中去除所述干扰模板。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,具体而言涉及一种从语料中提取模板的方法和装置。
技术介绍
随着自然语言处理技术的发展,越来越多的语料库资源被应用于机器翻译和自然 语言理解等自然语言处理领域以便获取知识。而模板作为自然语言处理过程中的一项重要 工具,受到了广泛关注。模板指的是通过对大规模语料的统计分析,提取出一些固定的语言搭配,这些搭 配在语料中具有普遍的意义,能够反映语料的特定语言结构特征。但是目前模板很大程度上依赖于人工提取和加工,效率低,成本高,难以满足需 求° 在机器番羽译领域,在 David Chiang 的"A Hierarchicalphrase-based model for statistical machine translation,, (Proceeding of43rd Annual Meeting of the ACL, 2005年,第263-270页)中,提出了一种模板提取方法,但是这种方法提取的模板数量庞大, 存在很多噪声和冗余。
技术实现思路
鉴于以上问题,本专利技术的一个目的是提供一种模板提取方法和装置,其能够高效 地、低噪声地从语料中提取模板。本专利技术的另一个目的是提供一种模板提取方法和装置,其能够低冗余地从语料中 提取模板。为了实现上述目的,根据本专利技术的一个方面,提供了一种模板提取方法,其包括 对语料进行包括分句和分词在内的预处理;从预处理后的语料中提取出候选模板;以及对 提取出的候选模板进行优化。其中,所述优化步骤包括针对每一个候选模板,计算由该候 选模板中的通配符所代表的词或词序列在语料中出现的频率以及该候选模板中由通配符 分隔出的词或词序列在语料中出现的频率;以及确定其中通配符所代表的词或词序列在 语料中出现的频率以及所述候选模板中由所述通配符分隔出的词或词序列在语料中出现 的频率满足预定条件的候选模板为干扰模板,并从所提取出的候选模板中去除所述干扰模 板。根据本专利技术的一个实施例,所述从预处理后的语料中提取出候选模板的步骤包 括针对从语料的经分词后的每一个句子,枚举出该句子中包含的长度低于预定长度的短 语,其中短语由句子中的一个词或更多个连续词的序列组成;以及对于枚举出的每一个短 语,将该短语中的至少一个词或词序列替换为代表所述至少一个词或词序列的通配符,以 形成候选模板,所述至少一个词或词序列的长度小于所述短语的长度。根据本专利技术的一个实施例,在去除干扰模板之后,所述方法还包括从提取出的候 选模板中去除重复的候选模板。根据本专利技术的另一个方面,一种模板提取装置包括预处理单元,配置用于对语料 进行包括分句和分词在内的预处理;候选模板提取单元,配置用于从预处理后的语料中提 取出候选模板;以及优化单元,配置用于对提取出的候选模板进行优化。其中,所述优化单 元进一步配置用于针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词 序列在语料中出现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现 的频率;以及确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板 中由所述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干 扰模板,并从所提取出的候选模板中去除所述干扰模板。使用本专利技术的方法和装置,可以自动地从大规模的语料中提取语言模板,节省了 大量的人工劳动。本专利技术的另一优点在于,通过对候选模板的优化剪枝,去除了候选模板中的干扰 模板,降低了模板中的噪声。本专利技术的又一优点在于,通过从提取出的候选模板中去除重复的候选模板,降低 了模板中的冗余。根据本专利技术的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的 程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设 备执行根据本专利技术的上述方法。根据本专利技术的另一方面,还提供了一种程序产品。所述程序产品包括机器可执行 的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据 本专利技术的上述方法。附图说明参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其 它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似 的技术特征或部件将采用相同或类似的附图标记来表示。图1示出根据本专利技术的实施例的模板提取方法的流程图;图2示出根据本专利技术的实施例的候选模板提取步骤的流程图;图3示出根据本专利技术的实施例的优化步骤的流程图;图4示出根据本专利技术的实施例的模板提取装置的示意性框图;以及图5示出可用于实施根据本专利技术实施例的方法和装置的计算机的示意性框图。具体实施例方式下面参照附图来说明本专利技术的实施例。在本专利技术的一个附图或一种实施方式中描 述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应 当注意,为了清楚的目的,附图和说明中省略了与本专利技术无关的、本领域普通技术人员已知 的部件和处理的表示和描述。图1示出根据本专利技术的实施例的模板提取方法的流程图。如图1所示,所述方法 包括语料预处理步骤S110、候选模板提取步骤S120和优化步骤S130。在语料预处理步骤SllO中,利用现有技术的方法,对语料进行包括分句和分词在内的预处理。可以根据现有技术的分句方法,例如根据诸如句号、问号、叹号之类的标点符号, 对输入的语料进行分句,以得到多个句子。作为示例,通过分句得到以下句子Sl 与所述物理差错对应的下载请求S2 一种发光二极管的制作方法S3 本专利技术提供一种发光二极管的制作方法及装置注意,由于各种情况,例如在分句过程中存在对标点符号的误读,或者标题等也作 为一个句子,因此对语料分句所得到的句子有可能并不严格符合语言学中对句子的要求。 例如,以上的句子Sl和S2,并不完整具备语言学中句子的主语、谓语和宾语。可以利用现有技术的分词方法,对分句后得到的句子进行分词,以将语料中的句 子切分成词。作为示例,上述句子可以切分为Sl 与所述物理差错对应的下载请求S2 一种发光二极管的制作方法S3 本专利技术提供一种发光二极管的制作方法及装置在候选模板提取步骤S120中,从预处理后的语料中提取出候选模板。这里,可以 使用各种现有的和将要开发的模板提取方法来从语料中提取出候选模板。例如,可以使 用在 David Chiang 的"A Hierarchicalphrase-based model for statistical machine translation". In Proceeding of43rd Annual Meeting of the ACL, 2005 263-270 页中提出的模板提取方法。在以下,为说明目的,将结合附图2来说明根据本专利技术的实施例 的候选模板提取步骤。如图2所示,根据本专利技术的实施例的候选模板提取步骤包括子步骤S1210和 S1220。在子步骤S1210中,针对语料的经分词后的每一个句子,枚举出该句子中包含的长 度低于预定长度的短语。这里,短语由句子中的一个词或更多个连续词的序列组成。例如,对于上面示例中的句子Si,可以枚举出长度低于例如7的短语“与”、“与所”........“物理”、“物理差错”、“物理差错对应”........“物理差错对应的下载请求”等等,这里不一一列出。在子步骤S本文档来自技高网...

【技术保护点】
1.一种模板提取方法,包括:对语料进行包括分句和分词在内的预处理;从预处理后的语料中提取出候选模板;以及对提取出的候选模板进行优化,其中,所述优化步骤包括:针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词序列在语料中出现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率;以及确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板中由所述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干扰模板,并从所提取出的候选模板中去除所述干扰模板。

【技术特征摘要】

【专利技术属性】
技术研发人员:何中军郑仲光孟遥于浩长濑友树
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1