当前位置: 首页 > 专利查询>苏州大学专利>正文

一种双语语义关系分类模型的建立方法和系统技术方案

技术编号:9642399 阅读:110 留言:0更新日期:2014-02-07 00:56
本发明专利技术公开一种双语语义关系分类模型的建立方法及系统。所述方法包括:通过第一语言分类器对未标注语义关系的对应于第一语言的第一未标注语料进行语义关系分类,得到语义关系分类结果;将所述第一未标注语料翻译为对应于第二语言的第二未标注语料;保存所述第一未标注语料与所述语义关系分类结果的对应关系至所述第一语言分类器的第一训练集;保存所述第二未标注语料与所述语义关系分类结果的对应关系至第二语言分类器的第二训练集。采用本发明专利技术的方法或系统,可以减少对大规模训练语料的需求,提高双语语义关系分类模型的建立效率。

【技术实现步骤摘要】
【专利摘要】本专利技术公开一种双语语义关系分类模型的建立方法及系统。所述方法包括:通过第一语言分类器对未标注语义关系的对应于第一语言的第一未标注语料进行语义关系分类,得到语义关系分类结果;将所述第一未标注语料翻译为对应于第二语言的第二未标注语料;保存所述第一未标注语料与所述语义关系分类结果的对应关系至所述第一语言分类器的第一训练集;保存所述第二未标注语料与所述语义关系分类结果的对应关系至第二语言分类器的第二训练集。采用本专利技术的方法或系统,可以减少对大规模训练语料的需求,提高双语语义关系分类模型的建立效率。【专利说明】一种双语语义关系分类模型的建立方法和系统
本专利技术涉及自然语言处理
,特别是涉及一种双语语义关系分类模型的建立方法和系统。
技术介绍
命名实体间语义关系抽取(简称实体关系抽取,或关系抽取)是信息抽取领域和自然语言处理领域中的一项重要研究内容。其任务是从自然语言文本中提取出两个命名实体之间所存在的语义关系。如短语“美国总统克林顿的平壤之行”中的两个实体“克林顿”(PER)和“平壤”(GPE)之间,存在的语义关系为物理位置关系(PHYS.located)。关系抽取的主要方法是控制机器根据标注语料和未标注语料对于语义关系进行学习,然后建立用于分析语义关系的分类模型。按照对标注语料的需求量由多到少的顺序,可分为指导性学习方法和弱指导学习方法。对于这两种方法,标注语料的数量和质量通常决定了关系抽取的性能,而语料的标注工作需要人工进行,即费力又耗时。如何能够提高语义关系分类模型的建立效率,减少语义关系分类对大规模训练语料的需求,是现有技术中亟待解决的问题。
技术实现思路
本专利技术的目的是提供一种双语语义关系分类模型的建立方法及系统,能够使一种语言形式下的语料通过翻译转换成另一种语言形式下的语料,帮助另一种语言的语义关系分类,反之亦然,从而减少语义关系分类对大规模训练语料的需求,提高双语语义关系分类模型的建立效率。为实现上述目的,本专利技术提供了如下方案:—种双语语义关系分类模型的建立方法,所述方法包括:通过第一语言分类器对未标注语义关系的对应于第一语言的第一未标注语料进行语义关系分类,得到第一语义关系分类结果;保存所述第一未标注语料与所述第一语义关系分类结果的对应关系至所述第一语言分类器的第一训练集;将所述第一未标注语料翻译为对应于第二语言的第二未标注语料;保存所述第二未标注语料与所述第一语义关系分类结果的对应关系至第二语言分类器的第二训练集;通过所述第二语言分类器对未标注语义关系的对应于所述第二语言的第三未标注语料进行语义关系分类,得到第二语义关系分类结果;保存所述第三未标注语料与所述第二语义关系分类结果的对应关系至所述第二训练集;将所述第三未标注语料翻译为对应于所述第一语言的第四未标注语料;保存所述第四未标注语料与所述第二语义关系分类结果的对应关系至所述第一训练集。可选的,所述得到第一语义关系分类结果,具体包括:获取所述第一语言分类器对所述第一未标注语料进行语义关系分类得到的多个第一分类结果;获取所述多个第一分类结果分别对应的可信度;选取可信度最高的第一分类结果作为所述第一语义关系分类结果。可选的,所述保存所述第一未标注语料与所述第一语义关系分类结果的对应关系至所述第一语言分类器的第一训练集之后,还包括:控制所述第一语言分类器从所述第一训练集中学习所述第一未标注语料与所述第一语义关系分类结果的对应关系,以便完善所述第一语言分类器。可选的,所述保存所述第二未标注语料与所述第一语义关系分类结果的对应关系至所述第二语言分类器的第二训练集之后,还包括:控制所述第二语言分类器从所述第二训练集中学习所述第二未标注语料与所述语义关系分类结果的对应关系,以便完善所述第二语言分类器。可选的,所述第一语言为中文,所述第二语言为英文。一种双语语义关系分类模型的建立系统,所述系统包括:第一分类模块,用于通过第一语言分类器对未标注语义关系的对应于第一语言的第一未标注语料进行语义关系分类,得到第一语义关系分类结果;第一保存模块,用于保存所述第一未标注语料与所述第一语义关系分类结果的对应关系至所述第一语言分类器的第一训练集;第一翻译模块,用于将所述第一未标注语料翻译为对应于第二语言的第二未标注语料;第二保存模块,用于保存所述第二未标注语料与所述第一语义关系分类结果的对应关系至第二语言分类器的第二训练集;第二分类模块,用于通过所述第二语言分类器对未标注语义关系的对应于所述第二语言的第三未标注语料进行语义关系分类,得到第二语义关系分类结果;第三保存模块,用于保存所述第三未标注语料与所述第二语义关系分类结果的对应关系至所述第二训练集;第二翻译模块,用于将所述第三未标注语料翻译为对应于所述第一语言的第四未标注语料;第四保存模块,用于保存所述第四未标注语料与所述第二语义关系分类结果的对应关系至所述第一训练集。可选的,所述第一分类模块,具体包括:分类结果获取单元,用于获取所述第一语言分类器对所述第一未标注语料进行语义关系分类得到的多个第一分类结果;可信度获取单元,用于获取所述多个第一分类结果分别对应的可信度;分类结果选取单元,用于选取可信度最高的第一分类结果作为所述第一语义关系分类结果。可选的,还包括:第一控制模块,用于在保存所述第一未标注语料与所述第一语义关系分类结果的对应关系至所述第一语言分类器的第一训练集之后,控制所述第一语言分类器从所述第一训练集中学习所述第一未标注语料与所述第一语义关系分类结果的对应关系,以便完善所述第一语言分类器。可选的,还包括:第二控制模块,用于在保存所述第二未标注语料与所述第一语义关系分类结果的对应关系至所述第二语言分类器的第二训练集之后,控制所述第二语言分类器从所述第二训练集中学习所述第二未标注语料与所述语义关系分类结果的对应关系,以便完善所述第二语言分类器。可选的,所述第一语言为中文,所述第二语言为英文。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术实施例的双语语义关系分类模型的建立方法及系统,通过第一语言分类器对未标注语义关系的对应于第一语言的第一未标注语料进行语义关系分类,得到语义关系分类结果,将所述第一未标注语料翻译为对应于第二语言的第二未标注语料,保存所述第一未标注语料与所述语义关系分类结果的对应关系至所述第一语言分类器的第一训练集;保存所述第二未标注语料与所述语义关系分类结果的对应关系至第二语言分类器的第二训练集,可以将一种语言分类器的分类结果,作为另一种语言分类器的分类结果,在实际操作中,只对一种语言形式下的一个语料进行语义关系分析,就可以生成两种语言形式下的语料及分类结果,减少对大规模训练语料库的需求,提高了双语语义关系分类模型的建立效率。此外,本专利技术实施例的双语语义关系分类模型的建立方法及系统,在将第一种语言分类器的分类结果,作为第二种语言分类器的分类结果的同时,还将第二种语言分类器的分类结果,作为第一种语言分类器的分类结果,可以同时对两种不同语言的语料进行处理,因此可以提高两种不同语言的语义关系分类模型的建立效率。【专利附图】【附图说明】为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描本文档来自技高网
...

【技术保护点】
一种双语语义关系分类模型的建立方法,其特征在于,所述方法包括:通过第一语言分类器对未标注语义关系的对应于第一语言的第一未标注语料进行语义关系分类,得到第一语义关系分类结果;保存所述第一未标注语料与所述第一语义关系分类结果的对应关系至所述第一语言分类器的第一训练集;将所述第一未标注语料翻译为对应于第二语言的第二未标注语料;保存所述第二未标注语料与所述第一语义关系分类结果的对应关系至第二语言分类器的第二训练集;通过所述第二语言分类器对未标注语义关系的对应于所述第二语言的第三未标注语料进行语义关系分类,得到第二语义关系分类结果;保存所述第三未标注语料与所述第二语义关系分类结果的对应关系至所述第二训练集;将所述第三未标注语料翻译为对应于所述第一语言的第四未标注语料;保存所述第四未标注语料与所述第二语义关系分类结果的对应关系至所述第一训练集。

【技术特征摘要】

【专利技术属性】
技术研发人员:钱龙华胡亚楠周国栋
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1