提取用于抽取实体的模板的方法和设备技术

技术编号:14844246 阅读:48 留言:0更新日期:2017-03-17 11:21
本发明专利技术公开了提取用于抽取实体的模板的方法和设备。根据本发明专利技术的提取用于抽取实体的模板的方法包括:从训练语料中,创建参考表,所述参考表包括:符合第一预定条件的普通字符和元字符的组合、相应的评价值;根据参考表,从训练语料中,提取候选模板;利用验证语料,验证候选模板的有效性;根据验证结果,调整所述参考表中的相关评价值;以及在满足第二预定条件时将所述第二预定条件被满足时的候选模板确定为所提取的模板。

【技术实现步骤摘要】

本专利技术一般地涉及信息处理领域。具体而言,本专利技术涉及一种能够自动地、良好地提取用于抽取实体的模板的方法和设备
技术介绍
近年来,随着互联网技术的发展和个人智能设备的普及,网上的在线文本内容呈几何级增长。为了有效地处理大量的文本内容,需要自动地进行信息抽取。相应地,信息抽取技术有了长足的发展。大体上,信息抽取技术可以分为基于特征的信息抽取技术和基于规则的信息抽取技术。基于特征的信息抽取技术依赖于大量的复杂的特征,特征的选取、相应模型的训练、应用时的特征计算等需要大量的工作和计算资源。基于规则的信息抽取技术通过引入模板,可以避免大量的复杂的特征相关的工作。模板可以通过模板学习而获得。传统的模板学习方法在单独的示例中单独地产生模板,模板再被评估,评估的指标是模板提取更多正确实体和更少错误实体的能力。然而,传统的模板学习方法存在实体抽取中的精度和召回率的折中。这是因为难以把握所产生的模板的泛化-具体的程度。模板过于具体会导致精度上升和召回率下降,模板过于泛化会导致召回率上升和精度下降。因此,期望一种提取用于抽取实体的模板的方法和设备,其能够自动地、良好地提取模板,所提取的模板能够良好地抽取实体。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本专利技术的目的是针对现有技术的上述问题,提出了一种能够自动地、良好地提取用于抽取实体的模板的方法和设备。为了实现上述目的,根据本专利技术的一个方面,提供了一种提取用于抽取实体的模板的方法,该模板提取方法包括:从训练语料中,创建参考表,所述参考表包括:符合第一预定条件的普通字符和元字符的组合、相应的评价值;根据参考表,从训练语料中,提取候选模板;利用验证语料,验证候选模板的有效性;根据验证结果,调整所述参考表中的相关评价值;以及在满足第二预定条件时将所述第二预定条件被满足时的候选模板确定为所提取的模板。根据本专利技术的另一个方面,提供了一种提取用于抽取实体的模板的设备,该模板提取设备包括:参考表创建装置,其用于:从训练语料中,创建参考表,所述参考表包括:符合第一预定条件的普通字符和元字符的组合、相应的评价值;候选模板提取装置,其用于:根据参考表,从训练语料中,提取候选模板;有效性验证装置,其用于:利用验证语料,验证候选模板的有效性;评价值调整装置,其用于:根据验证结果,调整所述参考表中的相关评价值;以及控制装置,其用于:在满足第二预定条件时将所述第二预定条件被满足时的候选模板确定为所提取的模板。另外,根据本专利技术的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本专利技术的上述方法。此外,根据本专利技术的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本专利技术的上述方法。附图说明参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:图1示出了根据本专利技术的实施例的提取用于抽取实体的模板的方法的流程图;图2示出了根据本专利技术的实施例的提取候选模板的方法的流程图;图3示出了根据本专利技术的第一实施例的实体抽取方法的流程图;图4示出了根据本专利技术的第二实施例的实体抽取方法的流程图;图5示出了根据本专利技术的第三实施例的实体抽取方法的流程图;图6示出了根据本专利技术实施例的提取用于抽取实体的模板的设备的结构方框图;以及图7示出了可用于实施根据本专利技术实施例的方法和设备的计算机的示意性框图。具体实施方式在下文中将结合附图对本专利技术的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。另外,还需要指出的是,在本专利技术的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。本专利技术的基本思想是通过创建参考表来评估上下文信息对于正确抽取目标实体的影响力,利用参考表来帮助抽取更加精确更加泛化的模板。此外,还不断地根据对于产生的模板的评估来调整、优化参考表,最终在达到平衡时获得最佳的参考表和模板两者。下面将参照图1描述根据本专利技术的实施例的提取用于抽取实体的模板的方法的流程。图1示出了根据本专利技术的实施例的提取用于抽取实体的模板的方法的流程图。如图1所示,根据本专利技术的实施例的提取用于抽取实体的模板的方法包括如下步骤:从训练语料中,创建参考表,所述参考表包括:符合预定条件的普通字符和元字符的组合、相应的评价值(步骤S1);根据参考表,从训练语料中,提取候选模板(步骤S2);利用验证语料,验证候选模板的有效性(步骤S3);根据验证结果,调整所述参考表中的相关评价值(步骤S4);基于调整后的参考表,重复执行上述提取、验证、调整步骤,直至满足预定停止条件(步骤S5);以及将预定停止条件被满足时的候选模板确定为所提取的模板(步骤S6)。在步骤S1中,从训练语料中,创建参考表,所述参考表包括:符合预定条件的普通字符和元字符的组合、相应的评价值。如上所述,本专利技术引入了参考表,帮助提取模板。因此,首先创建参考表。参考表的创建基于训练语料。应注意,训练语料和验证语料仅作用不同,其本质相同,均为已标注了应抽取的实体的文本文档来自技高网...

【技术保护点】
一种提取用于抽取实体的模板的方法,包括:从训练语料中,创建参考表,所述参考表包括:符合第一预定条件的普通字符和元字符的组合、相应的评价值;根据参考表,从训练语料中,提取候选模板;利用验证语料,验证候选模板的有效性;根据验证结果,调整所述参考表中的相关评价值;以及在满足第二预定条件时将所述第二预定条件被满足时的候选模板确定为所提取的模板。

【技术特征摘要】
1.一种提取用于抽取实体的模板的方法,包括:
从训练语料中,创建参考表,所述参考表包括:符合第一预定条件的
普通字符和元字符的组合、相应的评价值;
根据参考表,从训练语料中,提取候选模板;
利用验证语料,验证候选模板的有效性;
根据验证结果,调整所述参考表中的相关评价值;以及
在满足第二预定条件时将所述第二预定条件被满足时的候选模板确
定为所提取的模板。
2.如权利要求1所述的方法,其中,所述模板包括针对模板抽取对
象的上下文的外部模板和针对模板抽取对象本身的内部模板,对应于所述
外部模板的所述普通字符表示模板抽取对象的上下文的被泛化的一部分,
对应于所述外部模板的所述元字符表示所述普通字符对应的词的个数和
相对位置,对应于所述内部模板的所述普通字符表示模板抽取对象本身的
被泛化的一部分,对应于所述内部模板的所述元字符表示所述普通字符对
应的词的个数和相对位置。
3.如权利要求1所述的方法,其中,所述从训练语料中,创建参考
表包括:
针对所述训练语料中的每一个句子,根据其中对于应抽取的实体的标
注,按照所述预定条件,抽取所述普通字符和元字符;
根据所述普通字符在所述训练语料中出现的次数,计算所述相应的评
价值。
4.如权利要求1所述的方法,其中,所述根据参考表,从训练语料
中,提取候选模板包括:
针对所述训练语料中的每一个句子,每次随机选择一个或多个词或短
语进行泛化,以得到初步模板;
去除重复的初步模板和合并存在包含关系的初步模板,以得到备选模
板;
根据所述参考表中符合备选模板的普通字符和元字符的组合的相应
评价值,计算备选模板的得分;
选取得分最高的预定数量的备选模板,作为所述候选模板。
5.如权利要求1所述的方法,其中,所述利用验证语料,验证候选
...

【专利技术属性】
技术研发人员:方瑞玉缪庆亮张波房璐孟遥
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1