【技术实现步骤摘要】
本专利技术涉及自然语言处理,尤其涉及一种信息抽取模板的生成方法和装置。
技术介绍
1、信息抽取(information extraction)目前可以应用于各类信息的处理,如药学领域文本信息(如药品说明书、药品单据等)。信息抽取指的是从自然语言文本中抽取出特定的事件或事实信息,来帮助将海量内容自动分类、提取和重构,这些信息通常包括实体(entity)、关系(relation)和事件(event),目前信息抽取技术主要有两个方向:基于模板匹配的方法和基于深度学习的方法。
2、对于前一方法,其信息抽取准确率高,但是由于自然语言的灵活性,需要人工编写和维护大量的规则模板,使得人工工作量较大,如果规则模板数量不足,则无法保证召回率。对于后一方法,深度学习模型的可解释性稍差,难以针对具体结果进行调优,只能在统计层面改进,并且,目前深度学习模型在一些经典自然语言理解任务上(例如实体抽取、关系抽取)的准确率还达不到实用要求。
技术实现思路
1、有鉴于此,本专利技术实施例提供一种信息抽取模板的
...【技术保护点】
1.一种信息抽取模板的生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据任一初始模板中的组成部分确定多个模板单位,包括:
3.根据权利要求1所述的方法,其特征在于,所述预设顺序为:所述多个模板单位之间的任一随机顺序,或者,符合预设排序规则的、所述多个模板单位之间的一种随机顺序。
4.根据权利要求1所述的方法,其特征在于,所述将确定的多个模板单位以多种预设顺序排列,形成对应于该初始模板的多个新模板,包括:
5.根据权利要求4所述的方法,其特征在于,所述方法进一步包括:在所述形成对应于该初始模板
...【技术特征摘要】
1.一种信息抽取模板的生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据任一初始模板中的组成部分确定多个模板单位,包括:
3.根据权利要求1所述的方法,其特征在于,所述预设顺序为:所述多个模板单位之间的任一随机顺序,或者,符合预设排序规则的、所述多个模板单位之间的一种随机顺序。
4.根据权利要求1所述的方法,其特征在于,所述将确定的多个模板单位以多种预设顺序排列,形成对应于该初始模板的多个新模板,包括:
5.根据权利要求4所述的方法,其特征在于,所述方法进一步包括:在所述形成对应于该初始模板的多个新模板之后,对于任一新模板:
6.根据...
【专利技术属性】
技术研发人员:杨帅,张亚,吴元清,周谦,
申请(专利权)人:北京京东拓先科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。