当前位置: 首页 > 专利查询>清华大学专利>正文

一种信息提取方法及装置制造方法及图纸

技术编号:42625545 阅读:44 留言:0更新日期:2024-09-06 01:28
本申请提供了一种信息提取方法及装置,该方法包括:获取目标文本、第一词语词典、第一超模式词典、词语类别参数的先验分布及关系模式参数的先验分布;根据目标文本、第一词语词典、第一超模式词典、词语类别参数的先验分布、关系模式参数的先验分布及预先构建的关系双词典初始模型得到关系双词典模型;对关系双词典模型进行参数估计及模型选择,得到关系双词典模型的参数的后验分布、第二词语词典及第二超模式词典;利用关系双词典模型的参数的后验分布、第二词语词典及第二超模式词典进行信息提取。本申请实现了同时完成词语发现、文本切分、命名实体识别和关系抽取任务,充分利用不同任务间的相互促进作用,提高整体的信息提取性能。

【技术实现步骤摘要】

本申请涉及文本分析,尤其涉及一种信息提取方法及装置


技术介绍

1、中文非通用领域文本通常具有语言独特性,存在大量专业术语,相关标注数据匮乏等特征。为处理中文非通用领域文本,实现从文本中抽取关键信息,常涉及词语发现、文本切分、命名实体识别(ner)及关系提取(re)等任务。虽然许多学者已经提出了若干信息抽取方法,但现有方法多局限于某一个或者两个任务,缺乏同时处理上述多个任务联合学习方法的讨论。然而,将上述四个任务分开处理存在明显局限性:

2、第一,分阶段独立完成的任务可能会导致前一阶段的错误在后续阶段被放大,这不利于整个流程的准确性。

3、第二,这种方法忽视了不同任务之间的潜在关联性。在词汇层面,当文本缺少专业术语词典时,词语发现对非通用领域文本中的专业术语的处理非常重要,能够指导文本切分;反过来,精准的文本切分能够促成高质量的词语发现,从而有助于提升命名实体识别任务的性能。在关系提取上,一个实体的类型可能对它和其他实体之间的关系类型产生影响,同时,实体之间的关系也可能为识别实体类型提供重要线索。

4、第三,分开处理各任本文档来自技高网...

【技术保护点】

1.一种信息提取方法,其特征在于,包括:

2.根据权利要求1所述的信息提取方法,其特征在于,获取所述第一词语词典包括:

3.根据权利要求1所述的信息提取方法,其特征在于,获取所述第一超模式词典包括:

4.根据权利要求1所述的信息提取方法,其特征在于,获取所述关系模式参数的先验分布包括:将所述第一超模式词典输入预训练的超模式分类器,得到关系模式参数的先验分布。

5.根据权利要求1所述的信息提取方法,其特征在于,预先构建的关系双词典初始模型的步骤包括:

6.根据权利要求5所述的信息提取方法,其特征在于,所述对所述关系双词典模型进行参...

【技术特征摘要】

1.一种信息提取方法,其特征在于,包括:

2.根据权利要求1所述的信息提取方法,其特征在于,获取所述第一词语词典包括:

3.根据权利要求1所述的信息提取方法,其特征在于,获取所述第一超模式词典包括:

4.根据权利要求1所述的信息提取方法,其特征在于,获取所述关系模式参数的先验分布包括:将所述第一超模式词典输入预训练的超模式分类器,得到关系模式参数的先验分布。

5.根据权利要求1所述的信息提取方法,其特征在于,预先构建的关系双词典初始模型的步骤包括:

6.根据权利要求5所述的信息提取方法,其特征在于,所述对所述关系双词典模型进行参数估计,包括:

7.根据权利要求1所述的信息提取方法,其特征在于,对所述关系双词典模型进行模型选择,包括:

8.根据权利要求1所述的信息提取方法,其特征在于,所述利用所述关系双词典模型的参数的后验分布、所述第二词语词典及所述第二超模式词典进行信息提取,包括:

9.根据权利要求8所述的信息提取方法,其特征在于,所述利用所述第二超模式词典及所述关系双词典模型的参数的后验分布对所述目标文本进行关系提取,包括:

10.一种信息提取装置,其特征在于,包括:

11.根据权利要求10所述的信息提取装置,其特征在于,所述信息获取单元包括:

...

【专利技术属性】
技术研发人员:邓柯周墨钦
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1