一种基于依存图解析的一体化中文信息抽取方法及装置制造方法及图纸

技术编号:42571819 阅读:22 留言:0更新日期:2024-08-29 00:37
本发明专利技术涉及自然语言处理技术领域,特别是指一种基于依存图解析的一体化中文信息抽取方法及装置。方法包括:构建待处理文本的依存图;构建模型框架并训练模型框架,获得中文信息抽取模型;通过中文信息抽取模型获取待处理文本中文字之间的关系,获得待处理文本中字与字之间预测边的概率;提取字与字之间预测边的概率超过0.5的数据,输入至解码器中进行解码,并从相应的预测标签的分布中取到该字与字之间的标签,获得待处理文本的依存图,完成基于依存图解析的一体化中文信息抽取。本发明专利技术脱离特定的任务独立的运行并且有很好的性能,同时由于使用字粒度的方式进行建图来表示关系,能够对不同的数据集都采用一致的处理方式,得到统一的模型输入。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,特别是指一种基于依存图解析的一体化中文信息抽取方法及装置


技术介绍

1、在当今大数据时代的背景下,信息已经成为人们日常生活的重要组成部分,充斥着各个领域,有效地从这些海量信息中提取出关键信息,对于帮助人们更好地理解和利用这些信息,具有重要的意义和价值。因此,一个高效的面向多领域的可以即时提取出关键信息的技术很重要。

2、目前的信息抽取的主流方式主要是将各种信息抽取分为不同任务分别进行设计方法来进行,主要分为句法分析、语义角色标注、实体识别、关系抽取和事件抽取这五个任务,对于特定的任务利用特定的模型来实现这些信息的抽取。在自然语言处理领域中,信息抽取指的是从文本中识别、提取和结构化重要信息的过程,这些信息是实体、事件以及它们之间的关系,即是实体识别、关系抽取和事件抽取的综合。

3、现有的模型在特定任务上表现出色,这在许多研究和应用中都得到了充分的验证和肯定。然而,当试图将这些模型应用于类似但不完全相同的任务时,往往会发现它们的性能表现大打折扣。例如,模型可能在关系抽取任务上表现出色,但是当把模型应用在事件本文档来自技高网...

【技术保护点】

1.一种基于依存图解析的一体化中文信息抽取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于依存图解析的一体化中文信息抽取方法,其特征在于,所述S1中的构建待处理文本的依存图,包括:

3.根据权利要求2所述的基于依存图解析的一体化中文信息抽取方法,其特征在于,所述S2中的构建模型框架并训练所述模型框架,包括:

4.根据权利要求3所述的基于依存图解析的一体化中文信息抽取方法,其特征在于,所述S3中的通过所述中文信息抽取模型提取所述待处理文本中文字之间的关系,获得待处理文本中字与字之间预测边的概率,包括:

5.根据权利要求4所述的基...

【技术特征摘要】

1.一种基于依存图解析的一体化中文信息抽取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于依存图解析的一体化中文信息抽取方法,其特征在于,所述s1中的构建待处理文本的依存图,包括:

3.根据权利要求2所述的基于依存图解析的一体化中文信息抽取方法,其特征在于,所述s2中的构建模型框架并训练所述模型框架,包括:

4.根据权利要求3所述的基于依存图解析的一体化中文信息抽取方法,其特征在于,所述s3中的通过所述中文信息抽取模型提取所述待处理文本中文字之间的关系,获得待处理文本中字与字之间预测边的概率,包括:

5.根据权利要求4所述的基于依存图解析的一体化中文信息抽取方法,其特征在于,所述文本编码器,包括:

6.根据权利要求4所述的基于依存图解析的一体化中文信息抽取方法,其...

【专利技术属性】
技术研发人员:张梅山李欣欣喻曦
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1