信息抽取模板的生成方法和装置制造方法及图纸

技术编号:39991122 阅读:21 留言:0更新日期:2024-01-09 02:17
本发明专利技术公开了一种信息抽取模板的生成方法和装置,涉及自然语言处理技术领域。该方法的一具体实施方式包括:获取用于信息抽取的至少一个初始模板;其中,每一初始模板含有多个归属于预设类型的组成部分,所述组成部分为匹配符号和固定词中的至少一项,所述预设类型包括实体类型和关系类型中的至少一项;根据任一初始模板中的组成部分确定多个模板单位;将确定的多个模板单位以多种预设顺序排列,形成对应于该初始模板的多个新模板。该实施方式能够根据已有的初始模板自动生成多个新模板来执行信息抽取,从而在保证信息抽取准确率且不增加人工工作量的情况下提高信息抽取召回率。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其涉及一种信息抽取模板的生成方法和装置


技术介绍

1、信息抽取(information extraction)目前可以应用于各类信息的处理,如药学领域文本信息(如药品说明书、药品单据等)。信息抽取指的是从自然语言文本中抽取出特定的事件或事实信息,来帮助将海量内容自动分类、提取和重构,这些信息通常包括实体(entity)、关系(relation)和事件(event),目前信息抽取技术主要有两个方向:基于模板匹配的方法和基于深度学习的方法。

2、对于前一方法,其信息抽取准确率高,但是由于自然语言的灵活性,需要人工编写和维护大量的规则模板,使得人工工作量较大,如果规则模板数量不足,则无法保证召回率。对于后一方法,深度学习模型的可解释性稍差,难以针对具体结果进行调优,只能在统计层面改进,并且,目前深度学习模型在一些经典自然语言理解任务上(例如实体抽取、关系抽取)的准确率还达不到实用要求。


技术实现思路

1、有鉴于此,本专利技术实施例提供一种信息抽取模板的生成方法和装置,能够本文档来自技高网...

【技术保护点】

1.一种信息抽取模板的生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据任一初始模板中的组成部分确定多个模板单位,包括:

3.根据权利要求1所述的方法,其特征在于,所述预设顺序为:所述多个模板单位之间的任一随机顺序,或者,符合预设排序规则的、所述多个模板单位之间的一种随机顺序。

4.根据权利要求1所述的方法,其特征在于,所述将确定的多个模板单位以多种预设顺序排列,形成对应于该初始模板的多个新模板,包括:

5.根据权利要求4所述的方法,其特征在于,所述方法进一步包括:在所述形成对应于该初始模板的多个新模板之后,对...

【技术特征摘要】

1.一种信息抽取模板的生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据任一初始模板中的组成部分确定多个模板单位,包括:

3.根据权利要求1所述的方法,其特征在于,所述预设顺序为:所述多个模板单位之间的任一随机顺序,或者,符合预设排序规则的、所述多个模板单位之间的一种随机顺序。

4.根据权利要求1所述的方法,其特征在于,所述将确定的多个模板单位以多种预设顺序排列,形成对应于该初始模板的多个新模板,包括:

5.根据权利要求4所述的方法,其特征在于,所述方法进一步包括:在所述形成对应于该初始模板的多个新模板之后,对于任一新模板:

6.根据...

【专利技术属性】
技术研发人员:杨帅张亚吴元清周谦
申请(专利权)人:北京京东拓先科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1